網(wǎng)絡(luò)爬蟲編程 - 免費(fèi)下載

源碼資源 文件大小:3 K

?? 資源詳細(xì)信息

文件格式
未知
所屬分類
上傳用戶
上傳時(shí)間
文件大小
3 K
所需積分
2 積分
推薦指數(shù)
??? (3/5)

?? 溫馨提示:本資源由用戶 1370893801 上傳分享,僅供學(xué)習(xí)交流使用。如有侵權(quán),請(qǐng)聯(lián)系我們刪除。

資源簡介

網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲在CPP中爬行鏈接到你想要的深度。控制臺(tái)應(yīng)用程序

  Ubuntu 14.04 LTS上編譯的程序
  用g+編譯器編譯


相依性

  卷曲
  Boost圖書館


用于編譯的命令

  G+爬蟲.cpp-lcurl-lost_regex-o爬蟲


輸入

  URL:您想要抓取示例“dirghbuch.com”的URL
  鏈接數(shù):要從爬行中提取的每頁鏈接數(shù)
  深度:我們想爬多深,在哪里深度可以定義為樹的深度。


輸出量

  crawler.txt


限制

  鏈接數(shù)最多可達(dá)100。
  Does not work for website which has blocked curl crawling for example google.com yahoo.com
  由于缺乏并行性,所以速度很慢。
  沒有完整URL的鏈接被追加到用戶在大容量中插入的URLwww.xyz.com有/conatct-us的網(wǎng)址將是www.xyz.com/contact-us
  唯一的單詞也包含html標(biāo)記。


可能的改進(jìn),但尚未落實(shí)

  限制共享變量的使用
  改進(jìn)使其易于并行化
  比卷曲更有效的爬行方式

立即下載此資源

提示:下載后請(qǐng)用壓縮軟件解壓,推薦使用 WinRAR 或 7-Zip

資源說明

?? 下載說明

  • 下載需消耗 2積分
  • 24小時(shí)內(nèi)重復(fù)下載不扣分
  • 支持?jǐn)帱c(diǎn)續(xù)傳
  • 資源永久有效

?? 使用說明

  • 下載后用解壓軟件解壓
  • 推薦 WinRAR 或 7-Zip
  • 如有密碼請(qǐng)查看說明
  • 解壓后即可使用

?? 積分獲取

  • 上傳資源獲得積分
  • 每日簽到免費(fèi)領(lǐng)取
  • 邀請(qǐng)好友注冊獎(jiǎng)勵(lì)
  • 查看詳情 →

相關(guān)標(biāo)簽

點(diǎn)擊標(biāo)簽查看更多相關(guān)資源:

相關(guān)資源推薦