網絡爬蟲
網絡爬蟲在CPP中爬行鏈接到你想要的深度。控制臺應用程序
Ubuntu 14.04 LTS上編譯的程序
用g+編譯器編譯
相依性
卷曲
Boost圖書館
用于編譯的命令
G+爬蟲.cpp-lcurl-lost_regex-o爬蟲
輸入
URL:您想要抓取示例“dirghbuch.com”的URL
鏈接數:要從爬行中提取的每頁鏈接數
深度:我們想爬多深,在哪里深度可以定義為樹的深度。
輸出量
crawler.txt
限制
鏈接數最多可達100。
Does not work for website which has blocked curl crawling for example google.com yahoo.com
由于缺乏并行性,所以速度很慢。
沒有完整URL的鏈接被追加到用戶在大容量中插入的URLwww.xyz.com有/conatct-us的網址將是www.xyz.com/contact-us
唯一的單詞也包含html標記。
可能的改進,但尚未落實
限制共享變量的使用
改進使其易于并行化
比卷曲更有效的爬行方式
標簽:
網絡爬蟲
編程
上傳時間:
2018-06-20
上傳用戶:1370893801