电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

python如何爬取網頁中的文字

瀏覽:58日期:2022-07-16 09:06:52

用Python進行爬取網頁文字的代碼:

#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下載一個網頁url = ’https://www.biquge.tw/75_75273/3900155.html’# 模擬瀏覽器發送http請求response = requests.get(url)# 編碼方式response.encoding=’utf-8’# 目標小說主頁的網頁源碼html = response.textprint(html)

1、編寫爬蟲思路:

確定下載目標,找到網頁,找到網頁中需要的內容。對數據進行處理。保存數據。

2、知識點說明:

1)確定網絡中需要的信息,打開網頁后使用F12打開開發者模式。

在Network中可以看到很多信息,我們在頁面上看到的文字信息都保存在一個html文件中。點擊文件后可以看到response,文字信息都包含在response中。

對于需要輸入的信息,可以使用ctrl+f,進行搜索。查看信息前后包含哪些特定字段。

對于超鏈接的提取,可以使用最左邊的箭頭點擊超鏈接,這時Elements會打開有該條超鏈接的信息,從中判斷需要提取的信息。從下載小說來看,在目錄頁提取出小說的鏈接和章節名。

2)注意編碼格式

輸入字符集一定要設置成utf-8。頁面大多為GBK字符集。不設置會亂碼。

內容擴展:

接下來我們了解一下爬取網頁信息的步驟。

想要獲得我們所需的數據分三步

第一步:使用BeautifulSoup解析網頁

Soup = BeautifulSoup(html,’lxml’)

第二步:描述想要爬去信息的東西在哪里。

信息 = Soup.select(’???’)

要知道它叫什么名字,如何去定位。

第三步:從標簽中獲得你想要的信息

<p>Something</p>

從標簽中獲取我們需要的信息,去掉一些沒有用的結構,并且把我們獲取的信息按照一定格式裝在數據容器中,方便我們去查詢。

以上就是python如何爬取網頁中的文字的詳細內容,更多關于python爬取網頁文字的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 哈尔滨发电机,黑龙江柴油发电机组-北方星光 | 自动焊锡机_点胶机_螺丝机-锐驰机器人 | 储气罐,真空罐,缓冲罐,隔膜气压罐厂家批发价格,空压机储气罐规格型号-上海申容压力容器集团有限公司 | 砂磨机_立式纳米砂磨机_实验室砂磨机-广州儒佳化工设备厂家 | 真空干燥烘箱_鼓风干燥箱 _高低温恒温恒湿试验箱_光照二氧化碳恒温培养箱-上海航佩仪器 | 碳纤维复合材料制品生产定制工厂订制厂家-凯夫拉凯芙拉碳纤维手机壳套-碳纤维雪茄盒外壳套-深圳市润大世纪新材料科技有限公司 | 除甲醛公司-甲醛检测-广西雅居环境科技有限公司 | 医养体检包_公卫随访箱_慢病随访包_家签随访包_随访一体机-济南易享医疗科技有限公司 | 兰州UPS电源,兰州山特UPS-兰州万胜商贸| 吉祥新世纪铝塑板_生产铝塑板厂家_铝塑板生产厂家_临沂市兴达铝塑装饰材料有限公司 | 一体化污水处理设备-一体化净水设备-「山东梦之洁水处理」 | 智能型高压核相仪-自动开口闪点测试仪-QJ41A电雷管测试仪|上海妙定 | 蒸压釜-陶粒板隔墙板蒸压釜-山东鑫泰鑫智能装备有限公司 | 恒温恒湿箱(药品/保健品/食品/半导体/细菌)-兰贝石(北京)科技有限公司 | 振动筛,震动筛,圆形振动筛,振动筛价格,振动筛厂家-新乡巨宝机电 蒸汽热收缩机_蒸汽发生器_塑封机_包膜机_封切收缩机_热收缩包装机_真空机_全自动打包机_捆扎机_封箱机-东莞市中堡智能科技有限公司 | ERP企业管理系统永久免费版_在线ERP系统_OA办公_云版软件官网 | 辐射色度计-字符亮度测试-反射式膜厚仪-苏州瑞格谱光电科技有限公司 | 焦作网 WWW.JZRB.COM| 低温柔性试验仪-土工布淤堵-沥青车辙试验仪-莱博特(天津)试验机有限公司 | 佛山市钱丰金属不锈钢蜂窝板定制厂家|不锈钢装饰线条|不锈钢屏风| 电梯装饰板|不锈钢蜂窝板不锈钢工艺板材厂家佛山市钱丰金属制品有限公司 | 全自动面膜机_面膜折叠机价格_面膜灌装机定制_高速折棉机厂家-深圳市益豪科技有限公司 | 学校用栓剂模,玻璃瓶轧盖钳,小型安瓿熔封机,实验室安瓿熔封机-长沙中亚制药设备有限公司 | 振动筛,震动筛,圆形振动筛,振动筛价格,振动筛厂家-新乡巨宝机电 蒸汽热收缩机_蒸汽发生器_塑封机_包膜机_封切收缩机_热收缩包装机_真空机_全自动打包机_捆扎机_封箱机-东莞市中堡智能科技有限公司 | 电缆隧道在线监测-智慧配电站房-升压站在线监测-江苏久创电气科技有限公司 | 扬尘在线监测系统_工地噪声扬尘检测仪_扬尘监测系统_贝塔射线扬尘监测设备「风途物联网科技」 | 防腐储罐_塑料储罐_PE储罐厂家_淄博富邦滚塑防腐设备科技有限公司 | 探鸣起名网-品牌起名-英文商标起名-公司命名-企业取名包满意 | 精密五金冲压件_深圳五金冲压厂_钣金加工厂_五金模具加工-诚瑞丰科技股份有限公司 | 「银杏树」银杏树行情价格_银杏树种植_山东程锦园林 | VI设计-LOGO设计公司-品牌设计公司-包装设计公司-导视设计-杭州易象设计 | 注浆压力变送器-高温熔体传感器-矿用压力传感器|ZHYQ朝辉 | 青海电动密集架_智能密集架_密集架价格-盛隆柜业青海档案密集架厂家 | 天助网 - 中小企业全网推广平台_生态整合营销知名服务商_天助网采购优选 | 压装机-卧式轴承轮轴数控伺服压装机厂家[铭泽机械] | DNA亲子鉴定_DNA基因检测中心官方预约平台-严选好基因网 | 上海深蓝_缠绕机_缠膜机-上海深蓝机械装备有限公司 | 牛皮纸|牛卡纸|进口牛皮纸|食品级牛皮纸|牛皮纸厂家-伽立实业 | 执业药师报名条件,考试时间,考试真题,报名入口—首页 | 杰恒蠕动泵-蠕动泵专业厂家-19年专注蠕动泵| 招商帮-一站式网络营销服务|搜索营销推广|信息流推广|短视视频营销推广|互联网整合营销|网络推广代运营|招商帮企业招商好帮手 | 南昌旅行社_南昌国际旅行社_南昌国旅在线 |