1、鎖定某個主題抓取;
2、能夠產生日志文本文件,格式為:時間戳(timestamp)、URL;
3、抓取某一URL時最多允許建立2個連接(注意:本地作網頁解析的線程數則不限)
4、遵守文明蜘蛛規則:必須分析robots.txt文件和meta tag有無限制;一個線程抓完一個網頁后要sleep 2秒鐘;
5、能對HTML網頁進行解析,提取出鏈接URL,能判別提取的URL是否已處理過,不重復解析已crawl過的網頁;
6、能夠對spider/crawler程序的一些基本參數進行設置,包括:抓取深度(depth)、種子URL等;
7、使用User-agent向服務器表明自己的身份;
8、產生抓取統計信息:包括抓取速度、抓取完成所需時間、抓取網頁總數;重要變量和所有類、方法加注釋;
9、請遵守編程規范,如類、方法、文件等的命名規范,
10、可選:GUI圖形用戶界面、web界面,通過界面管理spider/crawler,包括啟停、URL增刪等
標簽:
日志
上傳時間:
2013-12-22
上傳用戶:wang5829