1、鎖定某個主題抓取;
2、能夠產(chǎn)生日志文本文件,格式為:時間戳(timestamp)、URL;
3、抓取某一URL時最多允許建立2個連接(注意:本地作網(wǎng)頁解析的線程數(shù)則不限)
4、遵守文明蜘蛛規(guī)則:必須分析robots.txt文件和meta tag有無限制;一個線程抓完一個網(wǎng)頁后要sleep 2秒鐘;
5、能對HTML網(wǎng)頁進行解析,提取出鏈接URL,能判別提取的URL是否已處理過,不重復(fù)解析已crawl過的網(wǎng)頁;
6、能夠?qū)pider/crawler程序的一些基本參數(shù)進行設(shè)置,包括:抓取深度(depth)、種子URL等;
7、使用User-agent向服務(wù)器表明自己的身份;
8、產(chǎn)生抓取統(tǒng)計信息:包括抓取速度、抓取完成所需時間、抓取網(wǎng)頁總數(shù);重要變量和所有類、方法加注釋;
9、請遵守編程規(guī)范,如類、方法、文件等的命名規(guī)范,
10、可選:GUI圖形用戶界面、web界面,通過界面管理spider/crawler,包括啟停、URL增刪等
標簽:
日志
上傳時間:
2013-12-22
上傳用戶:wang5829