1、鎖定某個主題抓??; 2、能夠產生日志文本文件,格式為:時間戳(timestamp)、URL; 3、抓取某一URL時最多允許建立2個連接(注意:本地作網頁解析的線程數則不限) 4、遵守文明蜘蛛規則:必須分析robots.txt文件和meta tag有無限制;一個線程抓完一個網頁后要sleep 2秒鐘; 5、能對HTML網頁進行解析,提取出鏈接URL,能判別提取的URL是否已處理過,不重復解析已crawl過的網頁; 6、能夠對spider/crawler程序的一些基本參數進行設置,包括:抓取深度(depth)、種子URL等; 7、使用User-agent向服務器表明自己的身份; 8、產生抓取統計信息:包括抓取速度、抓取完成所需時間、抓取網頁總數;重要變量和所有類、方法加注釋; 9、請遵守編程規范,如類、方法、文件等的命名規范, 10、可選:GUI圖形用戶界面、web界面,通過界面管理spider/crawler,包括啟停、URL增刪等
標簽: 日志
上傳時間: 2013-12-22
上傳用戶:wang5829
詞法分析器制作與應用 設計思想 (1)程序主體結構部分: 說明部分 %% 規則部分 %% 輔助程序部分 (2)主體結構的說明 在這里說明部分告訴我們使用的LETTER,DIGIT, IDENT(標識符,通常定義為字母開頭的字母數字串)和STR(字符串常量,通常定義為雙引號括起來的一串字符)是什么意思.這部分也可以包含一些初始化代碼.例如用#include來使用標準的頭文件和前向說明(forward ,references).這些代碼應該再標記"%{"和"%}"之間 規則部分> 可以包括任何你想用來分析的代碼 我們這里包括了忽略所有注釋中字符的功能,傳送ID名稱和字符串常量內容到主調函數和main函數的功能. (3)實現原理 程序中先判斷這個句語句中每個單元為關鍵字、常數、運算符、界符,對與不同的單詞符號給出不同編碼形式的編碼,用以區分之。 PL/0語言的EBNF表示 <常量定義>::=<標識符>=<無符號整數> <標識符>::=<字母>={<字母>|<數字>} <加法運算符>::=+|- <乘法運算符>::=*|/ <關系運算符>::==|#|<|<=|>|>= <字母>::=a|b|…|X|Y|Z <數字>::=0|1|2|…|8|9
上傳時間: 2015-11-04
上傳用戶:zhengzg
Linux是一個Open Source的UNIX-like作業系統,除了有著廣大的支援社群以外,穩定、模組化、擁有廣大的應用免費應用軟體支援是它主要的優點。ARM嵌入式處理器則是目前應用在嵌入式系統領域中,佔有率最高的處理器,同時也是Linux核心目前所能夠支援的處理器之一,然而要使得Linux在ARM嵌入式處理器上運作,勢必要經過移植 (porting) 的過程,也就是要將平臺相依 (platform dependent) 的部分做適當的修改
標簽: UNIX-like Source Linux Open
上傳時間: 2015-11-08
上傳用戶:dengzb84
CORDIC (Coordinate Rotation Digital Computer) is a method for computing elementary functions using minimal hardware such as shifts, adds/subs and compares. CORDIC works by rotating the coordinate system through constant angles until the angle is reduces to zero. The angle offsets are selected such that the operations on X and Y are only shifts and adds.
標簽: Coordinate elementary computing functions
上傳時間: 2015-11-08
上傳用戶:saharawalker
最小二乘曲面擬合程序(m文件),對一組三維數據z=f(x,y)擬合,成為關于x和y的多項式
標簽: 程序
上傳時間: 2015-11-10
上傳用戶:xsnjzljj
1.1 引言 1.1.1 設計目的 本次課程設計是在完成一個學期的編譯原理課程之后,為了進一步加深對編譯原理相關知識的理解,培養實際解決問題的能力而進行的。結合本學期所開設的軟件工程課程,本次課程設計實驗過程要求按照軟件工程的思想來組織開發過程,按照軟件生命周期的階段劃分來進行。由于課程設計規模較小,所以對軟件生命周期進行適當的合并,簡化為五個階段,即需求分析、總體設計、詳細設計、編碼實現和測試。 1.1.2 設計任務 針對本次課程設計我們設計了一個簡化的pascal語言,稱為mini-pascal。設計的任務就是開發出針對mini-pascal語言的編譯程序。標準的編譯程序結構分為五部分,分別是詞法分析、語法分析、語義分析和中間代碼生成、優化和目標代碼生成。由于時間和能力所限,我們的編譯程序只包括前三個部分,最后生成四元式形式的中間代碼。
上傳時間: 2013-12-25
上傳用戶:2467478207
在參考書目一這本書的附錄A,在單機中使用,但是最後在WIN95的光碟中找不到IENPSTUB.DLL及MSLOCUSR.DLL二個檔案,不知何故,可否告訴我如何解決這個問題? 我使用的是Win95的平臺,故須安裝PWS,但是卻無法安裝它,畫面出現是要求IE 4.01以上的版本,我使用的是IE5為何還是無法安裝呢?
標簽:
上傳時間: 2015-11-13
上傳用戶:lijianyu172
Tracking a moving object through several frames, provided changes from frame to frame are on the order of +-(10 + "X Range") pixels in the X direction and +-(10 + "Y Range") in the Y direction is done automatically because of a relatively large area of exploration during the search for an optimal (new) position for a particular control point and a very strong force exerted by large values of the image gradient.
標簽: frame Tracking provided changes
上傳時間: 2015-11-17
上傳用戶:zgu489
通過JAVA設計 GUI 界面的計算器程序,用戶可以通過鼠標依次輸入參加計算的數值,進行加、減、乘、除等混合運算,這些完成標準計算器的基礎操作。當選擇科學計算器后,可以實現sin 、 cos 、 tan 、 ln、x^y、x^2、x^3、pi、n!、mod和十六進制除這個以外還可以刪除輸入,清空結果,求1除X,X百分比,十進制是,八進制,二進制的相互轉換。
上傳時間: 2015-11-22
上傳用戶:阿四AIR
使用C++實現的Graham掃描法(求解凸包問題),可設置生成隨機點的個數、樣式,同時支持設置顯示范圍、顯示算法處理時間及使用文件導入導出點等功能。(文件格式為,頭四個字節是點的個數,以后分別是各個點的x坐標和y坐標,每個數值均占4字節)。
標簽: Graham
上傳時間: 2014-11-29
上傳用戶:pompey