Larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人 Sébastien Ailleret獨(dú)立開發(fā)。Larbin目的是能夠跟蹤頁面的url進(jìn)行擴(kuò)展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。
Larbin只是一個(gè)爬蟲,也就是說Larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲(chǔ)到數(shù)據(jù)庫以及建立索引的事情 Larbin也不提供。
latbin最初的設(shè)計(jì)也是依據(jù)設(shè)計(jì)簡(jiǎn)單但是高度可配置性的原則,因此我們可以看到,一個(gè)簡(jiǎn)單的Larbin的爬蟲可以每天獲?。担埃叭f的網(wǎng)頁,實(shí)在是非常高效。
標(biāo)簽:
Larbin
開源
網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)
上傳時(shí)間:
2017-03-02
上傳用戶:lili123