亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現(xiàn)在的位置是:蟲蟲下載站 > 資源下載 > Java編程 > 1、鎖定某個主題抓??; 2、能夠產(chǎn)生日志文本文件

1、鎖定某個主題抓?。? 2、能夠產(chǎn)生日志文本文件

  • 資源大小:1868 K
  • 上傳時間: 2013-12-22
  • 上傳用戶:gjq2000
  • 資源積分:2 下載積分
  • 標(biāo)      簽: 日志

資 源 簡 介

1、鎖定某個主題抓取; 2、能夠產(chǎn)生日志文本文件,格式為:時間戳(timestamp)、URL; 3、抓取某一URL時最多允許建立2個連接(注意:本地作網(wǎng)頁解析的線程數(shù)則不限) 4、遵守文明蜘蛛規(guī)則:必須分析robots.txt文件和meta tag有無限制;一個線程抓完一個網(wǎng)頁后要sleep 2秒鐘; 5、能對HTML網(wǎng)頁進(jìn)行解析,提取出鏈接URL,能判別提取的URL是否已處理過,不重復(fù)解析已crawl過的網(wǎng)頁; 6、能夠?qū)pider/crawler程序的一些基本參數(shù)進(jìn)行設(shè)置,包括:抓取深度(depth)、種子URL等; 7、使用User-agent向服務(wù)器表明自己的身份; 8、產(chǎn)生抓取統(tǒng)計(jì)信息:包括抓取速度、抓取完成所需時間、抓取網(wǎng)頁總數(shù);重要變量和所有類、方法加注釋; 9、請遵守編程規(guī)范,如類、方法、文件等的命名規(guī)范, 10、可選:GUI圖形用戶界面、web界面,通過界面管理spider/crawler,包括啟停、URL增刪等

相 關(guān) 資 源

主站蜘蛛池模板: 柘城县| 延川县| 天台县| 阿荣旗| 景宁| 健康| 绩溪县| 河源市| 玉田县| 安顺市| 丰城市| 陇南市| 清河县| 凌海市| 平远县| 娱乐| 静安区| 梁河县| 太和县| 永年县| 昭苏县| 临潭县| 安义县| 玉田县| 公安县| 宁晋县| 衡阳市| 桐乡市| 昌乐县| 罗源县| 夏邑县| 法库县| 塘沽区| 咸宁市| 祁阳县| 丹江口市| 竹溪县| 双流县| 习水县| 外汇| 锦州市|