Python是數(shù)據(jù)分析的首*語言,而網(wǎng)絡(luò)中的數(shù)據(jù)和信息很多,如何從中獲取需要的數(shù)據(jù)和信息呢?簡單、直接的方法就是用爬蟲技術(shù)來解決。本書是一本教初學(xué)者學(xué)習(xí)如何爬取網(wǎng)絡(luò)數(shù)據(jù)和信息的入門讀物。書中不僅有Python的相關(guān)內(nèi)容,而且還有數(shù)據(jù)處理和數(shù)據(jù)挖掘等方面的內(nèi)容。本書內(nèi)容非常實用,講解時穿插了22個爬蟲實戰(zhàn)案例,可以大大提高讀者的實際動手能力。本書共分12章,核心主題包括Python零基礎(chǔ)語法入門、爬蟲原理和網(wǎng)頁構(gòu)造、第*個爬蟲程序、正則表達式、Lxml庫與Xpath語法、使用API、數(shù)據(jù)庫存儲、多進程爬蟲、異步加載、表單交互與模擬登錄、Selenium模擬瀏覽器、Scrapy爬蟲框架。此外,書中通過一些典型爬蟲案例,講解了有經(jīng)緯信息的地圖圖表和詞云的制作方法,讓讀者體驗數(shù)據(jù)背后的樂趣。本書適合爬蟲技術(shù)初學(xué)者、愛好者及高等院校的相關(guān)學(xué)生,也適合數(shù)據(jù)爬蟲工程師作為參考讀物,同時也適合各大Python數(shù)據(jù)分析的培訓(xùn)機構(gòu)作為教材使用。詳解網(wǎng)絡(luò)爬蟲的原理、工具、框架和方法,內(nèi)容新,實戰(zhàn)案例多詳解從簡單網(wǎng)頁到異步加載網(wǎng)頁,從簡單存儲到數(shù)據(jù)庫存儲,從簡單爬蟲到框架爬蟲等技術(shù)22個網(wǎng)絡(luò)爬蟲綜合實戰(zhàn)案例、30個網(wǎng)站信息提取、2500余行代碼詳解爬蟲的3大方法:正則表達式、BeautifulSoup 4庫和Lxml庫詳解爬取數(shù)據(jù)的4大存儲方式:TXT、CSV、MongoDB和MySQL詳解Scrapy爬蟲框架的安裝、項目創(chuàng)建、文件使用及爬取數(shù)據(jù)的存儲
標簽:
python
網(wǎng)絡(luò)爬蟲
上傳時間:
2022-05-22
上傳用戶: