文章詳情頁(yè)

python 常見的反爬蟲策略

瀏覽：2日期：2022-07-09 16:54:40

1、判斷請(qǐng)求頭來進(jìn)行反爬

這是很早期的網(wǎng)站進(jìn)行的反爬方式

User-Agent 用戶代理referer 請(qǐng)求來自哪里cookie 也可以用來做訪問憑證解決辦法：請(qǐng)求頭里面添加對(duì)應(yīng)的參數(shù)（復(fù)制瀏覽器里面的數(shù)據(jù)）

2、根據(jù)用戶行為來進(jìn)行反爬

請(qǐng)求頻率過高，服務(wù)器設(shè)置規(guī)定時(shí)間之內(nèi)的請(qǐng)求閾值解決辦法：降低請(qǐng)求頻率或者使用代理（IP代理）網(wǎng)頁(yè)中設(shè)置一些陷阱（正常用戶訪問不到但是爬蟲可以訪問到）解決辦法：分析網(wǎng)頁(yè)，避開這些特殊陷阱請(qǐng)求間隔太短，返回相同的數(shù)據(jù)解決辦法：增加請(qǐng)求間隔

3、js加密

反爬方式中較為難處理的一類。js加密的原理：服務(wù)器響應(yīng)給瀏覽器的js文件，可以動(dòng)態(tài)的生成一些加密參數(shù)，瀏覽器會(huì)根據(jù)js的計(jì)算得到這些參數(shù)，在請(qǐng)求中帶入進(jìn)來，如果請(qǐng)求中沒有這些參數(shù)，那么服務(wù)器就任務(wù)請(qǐng)求無效。

python 常見的反爬蟲策略

4、字體加密

字體反爬，是一種常見的反爬技術(shù)，網(wǎng)站采用了自定義的字體文件，在瀏覽器上正常顯示，但是爬蟲抓取下來的數(shù)據(jù)要么就是亂碼，要么就是變成其他字符。采用自定義字體文件是CSS3的新特性，熟悉前端的同學(xué)可能知道，就是font-face屬性。

python 常見的反爬蟲策略

5、登錄驗(yàn)證碼

使用Python爬取網(wǎng)頁(yè)內(nèi)容時(shí)往往會(huì)遇到使用驗(yàn)證碼登陸才能訪問其網(wǎng)站，不同網(wǎng)站的使用的驗(yàn)證碼也不同，在最開始使用簡(jiǎn)單驗(yàn)證碼，識(shí)別數(shù)字，但是隨著反爬的不斷發(fā)展，慢慢設(shè)計(jì)出了更多復(fù)雜的驗(yàn)證碼，比如：內(nèi)容驗(yàn)證碼、滑動(dòng)驗(yàn)證碼、圖片拼接驗(yàn)證碼等等。網(wǎng)上有很多打碼平臺(tái)，通過注冊(cè)賬號(hào)，調(diào)用平臺(tái)接口，進(jìn)行驗(yàn)證碼的驗(yàn)證。

python 常見的反爬蟲策略

6、md5相關(guān)知識(shí)

MD5，消息摘要算法，一種被廣泛使用的密碼散列函數(shù)，可以產(chǎn)生出一個(gè)128位（16字節(jié)）的散列值（hash value），用于確保信息傳輸完整一致。MD5是最常見的摘要算法，速度很快，生成結(jié)果是固定的128 bit字節(jié)，通常用一個(gè)32位的16進(jìn)制字符串表示。MD5的特點(diǎn)：1.不可逆：不能從密文推導(dǎo)出明文。2.不管明文長(zhǎng)度為多少，密文的長(zhǎng)度都固定。3.密文之間不會(huì)重復(fù)。

import hashlibprint(hashlib.md5(’python’.encode()).hexdigest())

字符串python加密后的結(jié)果：

23eeeb4347bdd26bfc6b7ee9a3b755dd

7、base64

Base64是網(wǎng)絡(luò)上最常見的用于傳輸8Bit字節(jié)碼的編碼方式之一，Base64就是一種基于64個(gè)可打印字符來表示二進(jìn)制數(shù)據(jù)的方法。Base64編碼是從二進(jìn)制到字符的過程，可用于在HTTP環(huán)境下傳遞較長(zhǎng)的標(biāo)識(shí)信息。采用Base64編碼具有不可讀性，需要解碼后才能閱讀。

import base64#python中base64的加密print(base64.b64encode(’python’.encode()).decode())#python中base64的解密print(base64.b64decode(’Y2hpbmE=’.encode()).decode())

結(jié)果：

cHl0aG9uchina

二、驗(yàn)證碼驗(yàn)證

自己動(dòng)手看驗(yàn)證碼(古詩(shī)詞網(wǎng))

import requestsurl = 'gushiwen.org'session = requests.Session()text = session.get(url).text# 解析響應(yīng)，找到驗(yàn)證碼的圖片地址，# 下載驗(yàn)證碼圖片，保存with open(’code.jpg’, ’wb’)as f: f.write(’驗(yàn)證碼的url地址’.encode())code = input(’驗(yàn)證碼是: ’)login_url = 'login.com'data = { 'username': ’xx’, 'password': ’xx’, 'code': code}requests.post(url, data=data)

使用打碼平臺(tái)（圖鑒）

新建一個(gè)captcha_api.py

import jsonimport requestsimport base64from io import BytesIOfrom PIL import Imagefrom sys import version_infodef base64_api(uname, pwd, img): img = img.convert(’RGB’) buffered = BytesIO() img.save(buffered, format='JPEG') if version_info.major >= 3: b64 = str(base64.b64encode(buffered.getvalue()), encoding=’utf-8’) else: b64 = str(base64.b64encode(buffered.getvalue())) data = {'username': uname, 'password': pwd, 'image': b64} result = json.loads(requests.post('http://api.ttshitu.com/base64', json=data).text) if result[’success’]: return result['data']['result'] else: return result['message'] return ''def request_captcha(uname, pwd, img_path): img_path = img_path # 待驗(yàn)證的驗(yàn)證碼路徑 img = Image.open(img_path) result = base64_api(uname, pwd, img) # 傳入賬號(hào) 密碼和圖片 print(result)

新建use_code.py，調(diào)用接口

img_path = ’圖片路徑’from captcha_api import request_captcharet = request_captcha('賬號(hào)', '密碼', img_path)

以上就是python 常見的反爬蟲策略的詳細(xì)內(nèi)容，更多關(guān)于python反爬蟲的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：互斥鎖解決 Python 中多線程共享全局變量的問題(推薦)下一條：python 5個(gè)實(shí)用的技巧

相關(guān)文章：

1. XML入門精解之結(jié)構(gòu)與語(yǔ)法2. CSS Hack大全-教你如何區(qū)分出IE6-IE10、FireFox、Chrome、Opera3. CSS3實(shí)例分享之多重背景的實(shí)現(xiàn)(Multiple backgrounds)4. 利用CSS3新特性創(chuàng)建透明邊框三角5. XML入門的常見問題(一)6. HTML5 Canvas繪制圖形從入門到精通7. 概述IE和SQL2k開發(fā)一個(gè)XML聊天程序8. HTML <!DOCTYPE> 標(biāo)簽9. HTML DOM setInterval和clearInterval方法案例詳解10. XML入門的常見問題(二)

排行榜

					
					Python中SQLite如何使用
XML入門的常見問題(二)
IntelliJ IDEA安裝插件的方法步驟
IntelliJ IDEA導(dǎo)入jar包的方法
Docker創(chuàng)建本地鏡像實(shí)現(xiàn)方法解析
IntelliJ IDEA恢復(fù)刪除文件的方法
Django ModelForm操作及驗(yàn)證方式
在django中form的label和verbose name的區(qū)別說明
Java String index out of range:100錯(cuò)誤解決方案詳解
java虛擬機(jī)詳述-第三章（二）
jsp文件下載功能實(shí)現(xiàn)代碼