亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現(xiàn)在的位置是:蟲蟲下載站 > 資源下載 > Java編程 > 1、鎖定某個主題抓取; 2、能夠產(chǎn)生日志文本文件

1、鎖定某個主題抓取; 2、能夠產(chǎn)生日志文本文件

  • 資源大小:1868 K
  • 上傳時間: 2013-12-22
  • 上傳用戶:gjq2000
  • 資源積分:2 下載積分
  • 標      簽: 日志

資 源 簡 介

1、鎖定某個主題抓取; 2、能夠產(chǎn)生日志文本文件,格式為:時間戳(timestamp)、URL; 3、抓取某一URL時最多允許建立2個連接(注意:本地作網(wǎng)頁解析的線程數(shù)則不限) 4、遵守文明蜘蛛規(guī)則:必須分析robots.txt文件和meta tag有無限制;一個線程抓完一個網(wǎng)頁后要sleep 2秒鐘; 5、能對HTML網(wǎng)頁進行解析,提取出鏈接URL,能判別提取的URL是否已處理過,不重復(fù)解析已crawl過的網(wǎng)頁; 6、能夠?qū)pider/crawler程序的一些基本參數(shù)進行設(shè)置,包括:抓取深度(depth)、種子URL等; 7、使用User-agent向服務(wù)器表明自己的身份; 8、產(chǎn)生抓取統(tǒng)計信息:包括抓取速度、抓取完成所需時間、抓取網(wǎng)頁總數(shù);重要變量和所有類、方法加注釋; 9、請遵守編程規(guī)范,如類、方法、文件等的命名規(guī)范, 10、可選:GUI圖形用戶界面、web界面,通過界面管理spider/crawler,包括啟停、URL增刪等

相 關(guān) 資 源

主站蜘蛛池模板: 吴旗县| 揭阳市| 兰考县| 荥阳市| 探索| 梅州市| 奉新县| 阆中市| 瑞昌市| 房产| 余庆县| 东源县| 辽源市| 通城县| 汉阴县| 伊川县| 鱼台县| 龙里县| 获嘉县| 都昌县| 东台市| 荔波县| 昭苏县| 河间市| 内丘县| 绿春县| 大方县| 汉源县| 潞西市| 阜平县| 景东| 海淀区| 上栗县| 晴隆县| 内乡县| 扬州市| 焦作市| 榆社县| 兴义市| 广南县| 吉木萨尔县|