以后再也不用擔(dān)心寫爬蟲ip被封,不用擔(dān)心沒錢買代理ip的煩惱了
在使用python寫爬蟲時候,你會遇到所要爬取的網(wǎng)站有反爬取技術(shù)比如用同一個IP反復(fù)爬取同一個網(wǎng)頁,很可能會被封。如何有效的解決這個問題呢?我們可以使用代理ip,來設(shè)置代理ip池。
現(xiàn)在教大家一個可獲取大量免費有效快速的代理ip方法,我們訪問西刺免費代理ip網(wǎng)址
這里面提供了許多代理ip,但是我們嘗試過后會發(fā)現(xiàn)并不是每一個都是有效的。所以我們現(xiàn)在所要做的就是從里面提供的篩選出有效快速穩(wěn)定的ip。
以下介紹的免費獲取代理ip池的方法:
優(yōu)點:免費、數(shù)量多、有效、速度快
缺點:需要定期篩選
主要思路:
從網(wǎng)址上爬取ip地址并存儲
驗證ip是否能使用-(隨機(jī)訪問網(wǎng)址判斷響應(yīng)碼)
格式化ip地址
代碼如下:
1.導(dǎo)入包
import requests
from lxml import etree
import time
1
2
3
2.獲取西刺免費代理ip網(wǎng)址上的代理ip
def get_all_proxy():
url = 'http://www.xicidaili.com/nn/1'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
response = requests.get(url, headers=headers)
html_ele = etree.HTML(response.text)
ip_eles = html_ele.xpath('//table[@id="ip_list"]/tr/td[2]/text()')
port_ele = html_ele.xpath('//table[@id="ip_list"]/tr/td[3]/text()')
proxy_list = []
for i in range(0,len(ip_eles)):
proxy_str = 'http://' + ip_eles[i] + ':' + port_ele[i]
proxy_list.append(proxy_str)
return proxy_list
1
2
3
4
5
6
7
8
9
10
11
12
13
14
3.驗證獲取的ip
def check_all_proxy(proxy_list):
valid_proxy_list = []
for proxy in proxy_list:
url = 'http://www.baidu.com/'
proxy_dict = {
'http': proxy
}
try:
start_time = time.time()
response = requests.get(url, proxies=proxy_dict, timeout=5)
if response.status_code == 200:
end_time = time.time()
print('代理可用:' + proxy)
print('耗時:' + str(end_time - start_time))
valid_proxy_list.append(proxy)
else:
print('代理超時')
except:
print('代理不可用--------------->'+proxy)
return valid_proxy_list
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
4.輸出獲取ip池
if __name__ == '__main__':
proxy_list = get_all_proxy()
valid_proxy_list = check_all_proxy(proxy_list)
print('--'*30)
print(valid_proxy_list)
1
2
3
4
5
技術(shù)能力有限歡迎提出意見,保證積極向上不斷學(xué)習(xí)
————————————————
版權(quán)聲明:本文為CSDN博主「彬小二」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_39884947/article/details/86609930
資源簡介:以后再也不用擔(dān)心寫爬蟲ip被封,不用擔(dān)心沒錢買代理ip的煩惱了 在使用python寫爬蟲時候,你會遇到所要爬取的網(wǎng)站有反爬取技術(shù)比如用同一個ip反復(fù)爬取同一個網(wǎng)頁,很可能會被封。如何有效的解決這個問題呢?我們可以使用代理ip,來設(shè)置代理ip池。 現(xiàn)在教大家...
上傳時間: 2019-11-15
上傳用戶:fygwz1982
資源簡介:python 爬蟲 抓取
上傳時間: 2017-05-08
上傳用戶:宋桃子
資源簡介:簡單的python爬蟲,用于爬取網(wǎng)頁內(nèi)容,
上傳時間: 2017-04-09
上傳用戶:antone
資源簡介:python爬蟲實戰(zhàn)手冊,有需要的可以參考!
上傳時間: 2022-03-08
上傳用戶:
資源簡介:1、Conn.asp 數(shù)據(jù)庫連接文件 2、ipCheck.inc ip數(shù)據(jù)庫查詢函數(shù) 3、oc_ipRecord.asp ip記錄文件(被調(diào)用文件) 4、oc_ipRecord.inc ip記錄數(shù)據(jù)庫 5、Recordip.inc ip記錄函數(shù) 6、showipaddess.asp 顯示ip來源頁面 7、showipReco...
上傳時間: 2015-10-27
上傳用戶:xyipie
資源簡介:防止密碼被非法獲取防止密碼被非法獲取防止密碼被非法獲取
上傳時間: 2015-03-22
上傳用戶:dragonhaixm
資源簡介:ip Qualification與ip Verification
上傳時間: 2015-07-26
上傳用戶:hn891122
資源簡介:ip地址探測器 ip地址探測器
上傳時間: 2015-10-01
上傳用戶:myworkpost
資源簡介:介紹了Internet網(wǎng)絡(luò)編程中涉及到的TCP/ip協(xié)議、ip數(shù)據(jù) 報、TCP段、套接字等重要概念,并在此基礎(chǔ)上論述了基于VC++的 MFC編寫客戶/服務(wù) 器程序的方法和一般過程。
上傳時間: 2015-12-08
上傳用戶:ANRAN
資源簡介:PIC16_TCP/ip中的ip協(xié)議的實現(xiàn)源碼
上傳時間: 2013-12-20
上傳用戶:xc216
資源簡介:dll獲得ip dll獲得ip dll獲得ip dll獲得ip dll獲得ip
上傳時間: 2016-02-29
上傳用戶:Divine
資源簡介:第二章dll獲得ip dll獲得ip dll獲得ip
上傳時間: 2014-01-26
上傳用戶:ywqaxiwang
資源簡介:QoS in ternet ip revolution - from “ip over everything” to “everything over ip” Current Internet guarantee: Best Effort only.
上傳時間: 2016-03-05
上傳用戶:小眼睛LSL
資源簡介:掃描局域網(wǎng)ip 掃描局域網(wǎng)ip
上傳時間: 2013-12-23
上傳用戶:qunquan
資源簡介:ip解析包 ip解析包
上傳時間: 2013-12-24
上傳用戶:520
資源簡介:delphi,利用"純真ip數(shù)據(jù)庫"進(jìn)行ip地理位置查詢,附源碼。
上傳時間: 2016-10-17
上傳用戶:moerwang
資源簡介:TCP/ip vs UDP/ip Using VB + Winsock
上傳時間: 2017-03-20
上傳用戶:lht618
資源簡介:基于Silabs的C8051F340單片機(jī)控制以太網(wǎng)控制器CP2200完成靜態(tài)ip和動態(tài)ip的演示性網(wǎng)頁
上傳時間: 2017-06-01
上傳用戶:zhaiye
資源簡介:分類ip地址 特殊ip地址 私有網(wǎng)絡(luò)地址 ip地址配置
上傳時間: 2014-01-08
上傳用戶:PresidentHuang
資源簡介:mfc源程序,讀取本機(jī)ip并在ip控件顯示本機(jī)ip,
上傳時間: 2017-09-11
上傳用戶:kelimu
資源簡介:能夠獲取外網(wǎng)ip的delphi程序,內(nèi)網(wǎng)ip ,外網(wǎng)ip等
上傳時間: 2014-01-21
上傳用戶:王者A
資源簡介:可以簡單實現(xiàn)網(wǎng)絡(luò)爬蟲信息,對一些字符可以進(jìn)行txt存儲,有效實用
上傳時間: 2019-04-28
上傳用戶:zhuiqiu1234567
資源簡介:網(wǎng)絡(luò)是怎樣連接的_戶根勤---解壓密碼:666666目錄瀏覽器生成消息 1——探索瀏覽器內(nèi)部1.1 生成HTTP 請求消息51.1.1 探索之旅從輸入網(wǎng)址開始 51.1.2 瀏覽器先要解析URL 71.1.3 省略文件名的情況 91.1.4 HTTP 的基本思路 101.1.5 生成HTTP 請求消息 141.1.6 發(fā)...
上傳時間: 2022-06-02
上傳用戶:fliang
資源簡介:故障樣本數(shù)據(jù)的獲取是模擬電路故障診斷中最基本的步驟。為了實現(xiàn)短時間內(nèi)多次進(jìn)行故障注入、獲取大量樣本數(shù)據(jù),提出了基于SLPS的樣本數(shù)據(jù)自動獲取技術(shù)。利用SLPS將PSpice與Matlab結(jié)合,采用Matlab編程,實現(xiàn)故障模擬電路仿真數(shù)據(jù)獲取的自動化。實際應(yīng)用表明該...
上傳時間: 2013-10-23
上傳用戶:ZJX5201314
資源簡介:自蔓延高溫合成技術(shù)是利用原料在初始點燃條件下化學(xué)反應(yīng)所產(chǎn)生的高溫高熱,使燃燒反應(yīng)自發(fā)地進(jìn)行,從而得到新的成分和結(jié)構(gòu)的產(chǎn)物。通過對自蔓延高溫合成實驗壓力和燃燒速率測試方法的研究,根據(jù)實驗的要求,選擇合適的壓力傳感器,并自行設(shè)計有效的燃燒速率測...
上傳時間: 2013-11-16
上傳用戶:q986086481
資源簡介:開元的blog .如果不能打開左側(cè)資源列表中的內(nèi)容、無法閱讀到圖書、注冊認(rèn)證出現(xiàn) 網(wǎng)絡(luò)不通等情況: 您很可能是在局域網(wǎng)通過代理服務(wù)器上網(wǎng),需要在超星閱覽器中設(shè)置代 理服務(wù)器。方法是: 在超星閱覽器的設(shè)置菜單中選擇使用IE設(shè)置(此時,IE中需要已經(jīng)...
上傳時間: 2015-06-14
上傳用戶:開懷常笑
資源簡介:本程序可獲取本地網(wǎng)絡(luò)端口狀態(tài),通過ip地址,獲取端口號、端口狀態(tài)、連接次數(shù)...讓用戶清楚本地網(wǎng)絡(luò)的安全性。
上傳時間: 2015-10-14
上傳用戶:wangchong
資源簡介:本小程序可用來獲取網(wǎng)絡(luò)設(shè)置狀態(tài),其功能類似在CMD中使用ipconfig /all命令。可查看本地網(wǎng)絡(luò)的DNS、子網(wǎng)掩碼、網(wǎng)卡地址和綁定的ip地址、ip路由、默認(rèn)網(wǎng)關(guān)、工作域等。我所上傳的程序均在在VC 6.0中調(diào)試通過。
上傳時間: 2015-10-14
上傳用戶:yimoney
資源簡介:可以爬取百度百科,驗證有效,不錯的代碼示例,可以深入學(xué)習(xí)
上傳時間: 2015-04-22
上傳用戶:愛蓮說愛你
資源簡介:產(chǎn)品型號:VK36N2D 產(chǎn)品品牌:VINTEK/永嘉 封裝形式:SOP8/DFN8 產(chǎn)品年份:新年份產(chǎn)品 元泰原廠直銷,現(xiàn)貨更有優(yōu)勢!工程服務(wù),技術(shù)支持,讓您的生產(chǎn)高枕無憂。 概述 V K 3 6 N 2 D具有2個觸摸按鍵,可用來檢測外部觸摸按鍵上人手的觸摸動作。該芯片具...
上傳時間: 2020-06-11
上傳用戶:shubashushi66