1、鎖定某個(gè)主題抓取;
2、能夠產(chǎn)生日志文本文件,格式為:時(shí)間戳(timestamp)、URL;
3、抓取某一URL時(shí)最多允許建立2個(gè)連接(注意:本地作網(wǎng)頁解析的線程數(shù)則不限)
4、遵守文明蜘蛛規(guī)則:必須分析robots.txt文件和meta tag有無限制;一個(gè)線程抓完一個(gè)網(wǎng)頁后要sleep 2秒鐘;
5、能對(duì)HTML網(wǎng)頁進(jìn)行解析,提取出鏈接URL,能判別提取的URL是否已處理過,不重復(fù)解析已crawl過的網(wǎng)頁;
6、能夠?qū)pider/crawler程序的一些基本參數(shù)進(jìn)行設(shè)置,包括:抓取深度(depth)、種子URL等;
7、使用User-agent向服務(wù)器表明自己的身份;
8、產(chǎn)生抓取統(tǒng)計(jì)信息:包括抓取速度、抓取完成所需時(shí)間、抓取網(wǎng)頁總數(shù);重要變量和所有類、方法加注釋;
9、請(qǐng)遵守編程規(guī)范,如類、方法、文件等的命名規(guī)范,
10、可選:GUI圖形用戶界面、web界面,通過界面管理spider/crawler,包括啟停、URL增刪等
標(biāo)簽:
日志
上傳時(shí)間:
2013-12-22
上傳用戶:wang5829