电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

cookies應對python反爬蟲知識點詳解

瀏覽:135日期:2022-07-04 11:38:02

在保持合理的數據采集上,使用python爬蟲也并不是一件壞事情,因為在信息的交流上加快了流通的頻率。今天小編為大家帶來了一個稍微復雜一點的應對反爬蟲的方法,那就是我們自己構造cookies。在開始正式的構造之前,我們先進行簡單的分析如果不構造cookies爬蟲時會出現的一些情況,相信這樣更能體會出cookies的作用。

網站需要cookies才能正常返回,但是該網站的cookies過期很快,我總不能用瀏覽器開發者工具獲取cookies,然后讓程序跑一會兒,每隔幾分鐘再手動獲取cookies,再讓程序繼續跑吧。如果反復這樣工作,那么寫爬蟲也就沒意義了。便開始對cookies進行分析。

從瀏覽器的開發者工具獲取到的cookies大約有10個字段,經過反復測試,能讓網站正常返回的只需要兩個字段,分別為__jsluid_h=011a522dbxxxxxxxxc1ce59d336e5e60和__jsl_clearance=1581880640.794|0|trTB4c6b%2BZpvxxxxxxxx8YqCOOo%3D (中間打碼處理)。

經過測試,如果請求的時候不自己構造cookies,默認會返回__jsluid_h :

cookies應對python反爬蟲知識點詳解

先嘗試了將那段js腳本保存下來,包裝成一個html文件打開,發現瀏覽器不停的刷新,也并沒起什么作用。那就分析一下js腳本,原來的代碼是單行的,自己整理一下并加了一些變量名和log,大概是這么個樣子:

cookies應對python反爬蟲知識點詳解

將第16行的變量cmd打印出來看看,發現是另一段類似的腳本:

cookies應對python反爬蟲知識點詳解

可以看到第二段腳本已經開始設置cookies的__jsl_clearence 字段了。這些顯然就是混淆后的js腳本,但是分析到這里也就大概弄明白了從發送請求到網站返回是怎么回事。之所以在本地跑這段代碼會不斷刷新,是因為第二行的setTimeout會讓其在1.5秒后重新請求,但是我們本地沒有服務處理請求讓其停止,所以會不斷的刷新。

而第一段腳本當中,變量y是完整的js代碼 ,代碼中的變量名和關鍵字被進行編碼了,變量x存儲的是用來替換的變量名和關鍵字,后面是解碼函數。所以現在的問題變成了獲取第一段腳本當中的cmd代碼,執行后再獲取第二段代碼的document.cookie的內容即可。

可是對于python和js的交互我完全沒接觸過,嘗試了PyExecJS和Js2Py,都沒辦法正常執行第一段腳本。無奈之下,我用python復現了第一段腳本,然后用Js2Py獲取了cookie。在請求一次過后,構造cookies,再請求一次,就可以了:

def test(): url = REQUEST_URL # url = ’https://www.baidu.com’ request_header = get_header() html = requests.get(url, headers=request_header) print(html) jscode = html.text # print(jscode) # tryjs.get_cookies()為復現的js代碼,以及用Js2Py獲取cookies的代碼 request_cookies = try_js.get_cookies(jscode) request_cookies += ’;__jsluid_h=’ + html.cookies[’__jsluid_h’] request_header[’Cookie’] = request_cookies print(request_header) html = requests.get(url, headers=request_header, timeout=5) print(’new connection’) print(html) print(html.text)

在經歷重重的分析試驗后,我們終于得出以上的代碼成功實現了構造cookies。相信經過本篇的學習,小伙伴們又多了一種解決爬蟲阻攔獲取數據的cookies辦法了,趕快行動起來吧。

到此這篇關于cookies應對python反爬蟲知識點詳解的文章就介紹到這了,更多相關如何構造cookies應對python反爬蟲內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: LZ-373测厚仪-华瑞VOC气体检测仪-个人有毒气体检测仪-厂家-深圳市深博瑞仪器仪表有限公司 | 石家庄装修设计_室内家装设计_别墅装饰装修公司-石家庄金舍装饰官网 | 【德信自动化】点胶机_全自动点胶机_自动点胶机厂家_塑料热压机_自动螺丝机-深圳市德信自动化设备有限公司 | TPU薄膜_TPU薄膜生产厂家_TPU热熔胶膜厂家定制_鑫亘环保科技(深圳)有限公司 | 液氮罐_液氮容器_自增压液氮罐_杜瓦瓶_班德液氮罐厂家 | 安徽泰科检测科技有限公司【官方网站】 | 广州二手电缆线回收,旧电缆回收,广州铜线回收-广东益福电缆线回收公司 | 济南侦探调查-济南调查取证-山东私家侦探-山东白豹调查咨询公司 密集架|电动密集架|移动密集架|黑龙江档案密集架-大量现货厂家销售 | 球盟会·(中国)官方网站| 杭州月嫂技术培训服务公司-催乳师培训中心报名费用-产后康复师培训机构-杭州优贝姆健康管理有限公司 | 世界箱包品牌十大排名,女包小众轻奢品牌推荐200元左右,男包十大奢侈品牌排行榜双肩,学生拉杆箱什么品牌好质量好 - Gouwu3.com | 无菌检查集菌仪,微生物限度仪器-苏州长留仪器百科 | 十二星座查询(性格特点分析、星座运势解读) - 玄米星座网 | 华禹护栏|锌钢护栏_阳台护栏_护栏厂家-华禹专注阳台护栏、楼梯栏杆、百叶窗、空调架、基坑护栏、道路护栏等锌钢护栏产品的生产销售。 | 西装定制/做厂家/公司_西装订做/制价格/费用-北京圣达信西装 | 农业仪器网 - 中国自动化农业仪器信息交流平台 | 路斯特伺服驱动器维修,伦茨伺服驱动器维修|万骏自动化百科 | 中视电广_短视频拍摄_短视频推广_短视频代运营_宣传片拍摄_影视广告制作_中视电广 | 深圳侦探联系方式_深圳小三调查取证公司_深圳小三分离机构 | 品牌设计_VI设计_电影海报设计_包装设计_LOGO设计-Bacross新越品牌顾问 | 东莞注册公司-代办营业执照-东莞公司注册代理记账-极刻财税 | 实验室pH计|电导率仪|溶解氧测定仪|离子浓度计|多参数水质分析仪|pH电极-上海般特仪器有限公司 | 山东限矩型液力偶合器_液力耦合器易熔塞厂家-淄博市汇川源机械厂 | 恒温恒湿试验箱厂家-高低温试验箱维修价格_东莞环仪仪器_东莞环仪仪器 | 山东商品混凝土搅拌楼-环保型搅拌站-拌合站-分体仓-搅拌机厂家-天宇 | 开业庆典_舞龙舞狮_乔迁奠基仪式_开工仪式-神挚龙狮鼓乐文化传媒 | 中医治疗皮肤病_潍坊银康医院「山东」重症皮肤病救治平台 | 尊享蟹太太美味,大闸蟹礼卡|礼券|礼盒在线预订-蟹太太官网 | 河南不锈钢水箱_地埋水箱_镀锌板水箱_消防水箱厂家-河南联固供水设备有限公司 | 诸城网站建设-网络推广-网站优化-阿里巴巴托管-诸城恒泰互联 | 加热制冷恒温循环器-加热制冷循环油浴-杭州庚雨仪器有限公司 | 深圳3D打印服务-3D打印加工-手板模型加工厂-悟空打印坊 | 元拓建材集团官方网站| 液氮罐_液氮容器_自增压液氮罐_杜瓦瓶_班德液氮罐厂家 | 澳门精准正版免费大全,2025新澳门全年免费,新澳天天开奖免费资料大全最新,新澳2025今晚开奖资料,新澳马今天最快最新图库 | 成都治疗尖锐湿疣比较好的医院-成都治疗尖锐湿疣那家医院好-成都西南皮肤病医院 | 广东风淋室_广东风淋室厂家_广东风淋室价格_广州开源_传递窗_FFU-广州开源净化科技有限公司 | 长沙一级消防工程公司_智能化弱电_机电安装_亮化工程专业施工承包_湖南公共安全工程有限公司 | 大型果蔬切片机-水果冬瓜削皮机-洗菜机切菜机-肇庆市凤翔餐饮设备有限公司 | 沥青车辙成型机-车托式混凝土取芯机-混凝土塑料试模|鑫高仪器 | 挤出机_橡胶挤出机_塑料挤出机_胶片冷却机-河北伟源橡塑设备有限公司 |