以后再也不用擔心寫爬蟲ip被封,不用擔心沒錢買代理ip的煩惱了 在使用python寫爬蟲時候,你會遇到所要爬取的網站有反爬取技術比如用同一個IP反復爬取同一個網頁,很可能會被封。如何有效的解決這個問題呢?我們可以使用代理ip,來設置代理ip池。 現在教大家一個可獲取大量免費有效快速的代理ip方法,我們訪問西刺免費代理ip網址 這里面提供了許多代理ip,但是我們嘗試過后會發現并不是每一個都是有效的。所以我們現在所要做的就是從里面提供的篩選出有效快速穩定的ip。 以下介紹的免費獲取代理ip池的方法: 優點:免費、數量多、有效、速度快 缺點:需要定期篩選 主要思路: 從網址上爬取ip地址并存儲 驗證ip是否能使用-(隨機訪問網址判斷響應碼) 格式化ip地址 代碼如下: 1.導入包 import requests from lxml import etree import time 1 2 3 2.獲取西刺免費代理ip網址上的代理ip def get_all_proxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36', } response = requests.get(url, headers=headers) html_ele = etree.HTML(response.text) ip_eles = html_ele.xpath('//table[@id="ip_list"]/tr/td[2]/text()') port_ele = html_ele.xpath('//table[@id="ip_list"]/tr/td[3]/text()') proxy_list = [] for i in range(0,len(ip_eles)): proxy_str = 'http://' + ip_eles[i] + ':' + port_ele[i] proxy_list.append(proxy_str) return proxy_list 1 2 3 4 5 6 7 8 9 10 11 12 13 14 3.驗證獲取的ip def check_all_proxy(proxy_list): valid_proxy_list = [] for proxy in proxy_list: url = 'http://www.baidu.com/' proxy_dict = { 'http': proxy } try: start_time = time.time() response = requests.get(url, proxies=proxy_dict, timeout=5) if response.status_code == 200: end_time = time.time() print('代理可用:' + proxy) print('耗時:' + str(end_time - start_time)) valid_proxy_list.append(proxy) else: print('代理超時') except: print('代理不可用--------------->'+proxy) return valid_proxy_list 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 4.輸出獲取ip池 if __name__ == '__main__': proxy_list = get_all_proxy() valid_proxy_list = check_all_proxy(proxy_list) print('--'*30) print(valid_proxy_list) 1 2 3 4 5 技術能力有限歡迎提出意見,保證積極向上不斷學習 ———————————————— 版權聲明:本文為CSDN博主「彬小二」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。 原文鏈接:https://blog.csdn.net/qq_39884947/article/details/86609930
上傳時間: 2019-11-15
上傳用戶:fygwz1982
allegro 需要導出哪些文件嘉立創才能自動識別
上傳時間: 2020-10-12
上傳用戶:
allegro速成教材,五十幾頁的中文教程,你懂的,簡單易用。
上傳時間: 2021-01-28
上傳用戶:
Cadence印刷電路板設計 Allegro PCB Editor設計指南.pdf
標簽: Cadence Allegro Editor PCB 印刷電路板 設計指南Cadence印刷電路板設計 Allegro PCB Editor設計指南.pdf
上傳時間: 2021-02-07
上傳用戶:
17年畫的6層板(allegro),沒有原理圖
標簽: allegro
上傳時間: 2021-10-16
上傳用戶:
硬件工程師資料-Allegro教程系列 學習筆記
標簽: 硬件工程師
上傳時間: 2021-11-06
上傳用戶:
新唐N76E003官方評估板Cadence allegro設計硬件原理圖+PCB文件:NuTiny-SDK-N76E003 V1.0.DSNNUTINY-SDK-N76E003 V1.0.DSNlcknutiny-sdk-n76e003 v1.0.opjNuTiny-SDK-N76E003 V1.0.pdfNuTiny-SDK-N76E003 V1.0.ecoNuTiny-SDK-N76E003 V1.0.pcbNuTiny-SDK-N76E003 V1.0_BOM.xlsNuTiny-SDK-N76E003 V1.0_Gerber.zipNuTiny-SDK-N76E003 V1.0_XY.xls
上傳時間: 2021-11-11
上傳用戶:
常用接插件USB座 SD卡 TF卡 RJ45 AD集成庫ALITUM庫49個合集(原理圖庫+PCB封裝庫),集成封裝庫型號列表:Library Component Count : 49Name Description----------------------------------------------------------------------------------------------------3F07 立體聲耳機插座6.3mm插簧 6.3mm插簧Battery 備份電池CON 2X16 DIN41612 DIN 41612CON 2X32 DIN41612 DIN 41612CON50A D Connector 15 VGAD Connector 9 串口DB25 并口DG141 DIMM-100 接插件EMIF 接插件FIN 散熱片FPC-30P FPC排線連接器FPC-40P FPC排線連接器HR5803 以太網接口HR911103A 網絡接口HR911105A 以太網接口Header 10 接插件Header 10X2 接插件Header 14X2A 接插件Header 15X2 接插件Header 16 接插件Header 16X2 接插件Header 17X2 接插件Header 2 接插件Header 2X2 接插件Header 3 接插件Header 30 接插件Header 32X2 接插件Header 4 接插件Header 40 接插件Header 5X2 接插件Header 6 接插件Header 7X2 接插件Header 8 接插件Header 8X2 接插件Header_AMP50 控制器接插件LCD_CON37 LCD接口Light_Pipe 燈柱PJ-306 立體聲耳機插座PWRCON 直流電源端子RCA RCA Phono JackSDCARD SD卡自彈SDCARD-M TF卡槽SU-25-3 接線叉USB USB接口USB_M Micro/Mini USBZIF20 接插件
上傳時間: 2021-11-21
上傳用戶:slq1234567890
燈的控制裝置 第一部分 一般要求和安全要求
標簽: 國標
上傳時間: 2021-12-09
上傳用戶:
6層全志H3電視機頂盒PCB設計源文件-Allegro設計文檔, 可做參考, 可直接打樣!
上傳時間: 2021-12-16
上傳用戶: