电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

瀏覽:2日期:2022-08-06 16:43:24
目錄使用范例常用的對象–Tag常用的對象–NavigableString常用的對象–BeautifulSoup常用的對象–Comment對文檔樹的遍歷tag中包含多個字符串的情況.stripped_strings 去除空白內容搜索文檔樹–find和find_allselect方法(各種查找)獲取內容總結使用范例

from bs4 import BeautifulSoup#創建 Beautiful Soup 對象# 使用lxml來進行解析soup = BeautifulSoup(html,'lxml')print(soup.prettify())

返回結果

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

常用的對象–Tag

就是 HTML 中的一個個標簽

在上面范例的基礎上添加

from bs4 import BeautifulSoup#創建 Beautiful Soup 對象# 使用lxml來進行解析soup = BeautifulSoup(html,'lxml')#print(soup.prettify())#創建 Beautiful Soup 對象soup = BeautifulSoup(html,’lxml’)print (soup.title)#None因為這里沒有tiele標簽所以返回noneprint (soup.head)#None因為這里沒有head標簽所以返回noneprint (soup.a)#返回 <a target='_blank'>編輯自我介紹,讓更多人了解你<span class='write-icon'></span></a>print (type(soup.p))#返回 <class ’bs4.element.Tag’>print( soup.p)

其中print( soup.p)

返回結果為

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

同樣地,在上面地基礎上添加

print (soup.name)# [document] #soup 對象本身比較特殊,它的 name 即為 [document]

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

print (soup.head.name)#head #對于其他內部標簽,輸出的值為標簽本身的名稱

print (soup.p.attrs)##把p標簽的所有屬性打印出來,得到的類型是一個字典。

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

print (soup.p[’class’])#獲取P標簽下地class標簽

soup.p[’class’] = 'newClass'print (soup.p) # 可以對這些屬性和內容等等進行修改

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

常用的對象–NavigableString

前面地基礎上添加

print (soup.p.string)# The Dormouse’s storyprint (type(soup.p.string))# <class ’bs4.element.NavigableString’>thon

返回結果

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

常用的對象–BeautifulSoup

beautiful soup對象表示文檔的全部內容。大多數情況下,它可以被視為標記對象。它支持遍歷文檔樹并搜索文檔樹中描述的大多數方法因為Beauty soup對象不是真正的HTML或XML標記,所以它沒有名稱和屬性。但是,有時查看其內容很方便。Name屬性,因此美麗的湯對象包含一個特殊屬性。值為“[文檔]”的名稱

print(soup.name)#返回 ’[document]’常用的對象–Comment

用于解釋注釋部分的內容

markup = '<b><!--Hey, buddy. Want to buy a used parser?--></b>'soup = BeautifulSoup(markup)comment = soup.b.stringtype(comment)# <class ’bs4.element.Comment’>對文檔樹的遍歷

在上面的基礎上添加

head_tag = soup.div# 返回所有子節點的列表print(head_tag.contents)

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

同理

head_tag = soup.div# 返回所有子節點的迭代器for child in head_tag.children: print(child)

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

tag中包含多個字符串的情況

可用 .strings 來循環獲取

for string in soup.strings: print(repr(string))

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

.stripped_strings 去除空白內容

for string in soup.stripped_strings: print(repr(string))

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

搜索文檔樹–find和find_all

找到所有

print(soup.find_all('a',id=’link2’))

find方法是找到第一個滿足條件的標簽后立即返回,返回一個元素。find_all方法是把所有滿足條件的標簽都選到,然后返回。

select方法(各種查找)

#通過標簽名查找:print(soup.select(’a’))#通過類名查找:#通過類名,則應該在類的前面加一個’.’print(soup.select(’.sister’))#通過id查找:#通過id查找,應該在id的名字前面加一個#號print(soup.select('#link1'))

查找a標簽返回的結果

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

其他因為網頁本身沒有,返回的是一個空列表

組合查找

print(soup.select('p #link1'))#查找 p 標簽中,id 等于 link1的內容

子標簽查找

print(soup.select('head > title'))

通過屬性查找

print(soup.select(’a[]’))#屬性與標簽屬同一節點,中間不能有空格獲取內容

先查看類型

print (type(soup.select(’div’)))

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

for title in soup.select(’div’): print (title.get_text())

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

print (soup.select(’div’)[20].get_text())#選取第20個div標簽的內容

返回

python爬蟲學習筆記--BeautifulSoup4庫的使用詳解

總結

本篇文章就到這里了,希望能給你帶來幫助,也希望您能夠多多關注好吧啦網的更多內容!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 苏州柯瑞德货架-仓库自动化改造解决方案| 万濠投影仪_瑞士TRIMOS高度仪_尼康投影仪V12BDC|量子仪器 | 杭州标识标牌|文化墙|展厅|导视|户内外广告|发光字|灯箱|铭阳制作公司 - 杭州标识标牌|文化墙|展厅|导视|户内外广告|发光字|灯箱|铭阳制作公司 | 电伴热系统施工_仪表电伴热保温箱厂家_沃安电伴热管缆工业技术(济南)有限公司 | 美名宝起名网-在线宝宝、公司、起名平台| 鹤壁创新仪器公司-全自动量热仪,定硫仪,煤炭测硫仪,灰熔点测定仪,快速自动测氢仪,工业分析仪,煤质化验仪器 | 找果网 | 苹果手机找回方法,苹果iPhone手机丢了找回,认准找果网! | 哲力实业_专注汽车涂料汽车漆研发生产_汽车漆|修补油漆品牌厂家 长沙一级消防工程公司_智能化弱电_机电安装_亮化工程专业施工承包_湖南公共安全工程有限公司 | 起好名字_取个好名字_好名网免费取好名在线打分 | 蒸压釜_蒸养釜_蒸压釜厂家-山东鑫泰鑫智能装备有限公司 | 塑胶跑道_学校塑胶跑道_塑胶球场_运动场材料厂家_中国塑胶跑道十大生产厂家_混合型塑胶跑道_透气型塑胶跑道-广东绿晨体育设施有限公司 | 广东健伦体育发展有限公司-体育工程配套及销售运动器材的体育用品服务商 | 蒸汽热收缩机_蒸汽发生器_塑封机_包膜机_封切收缩机_热收缩包装机_真空机_全自动打包机_捆扎机_封箱机-东莞市中堡智能科技有限公司 | 江苏农村商业银行招聘网_2024江苏农商行考试指南_江苏农商行校园招聘 | 大学食堂装修设计_公司餐厅效果图_工厂食堂改造_迈普装饰 | 蒸压釜_蒸养釜_蒸压釜厂家-山东鑫泰鑫智能装备有限公司 | 爱德华真空泵油/罗茨泵维修,爱发科-比其尔产品供应东莞/杭州/上海等全国各地 | 复合土工膜厂家|hdpe防渗土工膜|复合防渗土工布|玻璃纤维|双向塑料土工格栅-安徽路建新材料有限公司 | 电伴热系统施工_仪表电伴热保温箱厂家_沃安电伴热管缆工业技术(济南)有限公司 | 泥浆在线密度计厂家-防爆数字压力表-膜盒-远传压力表厂家-江苏大亚自控设备有限公司 | 水上浮桥-游艇码头-浮动码头-游船码头-码瑞纳游艇码头工程 | 安徽华耐泵阀有限公司-官方网站 安德建奇火花机-阿奇夏米尔慢走丝|高维|发那科-北京杰森柏汇 | 中红外QCL激光器-其他连续-半导体连续激光器-筱晓光子 | 碳钢法兰厂家,非标法兰,定制异型,法兰生产厂家-河北九瑞管道 | 分光色差仪,测色仪,反透射灯箱,爱色丽分光光度仪,美能达色差仪维修_苏州欣美和仪器有限公司 | 锯边机,自动锯边机,双面涂胶机-建业顺达机械有限公司 | 专业生产动态配料系统_饲料配料系统_化肥配料系统等配料系统-郑州鑫晟重工机械有限公司 | 除湿机|工业除湿机|抽湿器|大型地下室车间仓库吊顶防爆除湿机|抽湿烘干房|新风除湿机|调温/降温除湿机|恒温恒湿机|加湿机-杭州川田电器有限公司 | 瓶盖扭矩测试仪-瓶盖扭力仪-全自动扭矩仪-济南三泉中石单品站 | 红立方品牌应急包/急救包加盟,小成本好项目代理_应急/消防/户外用品加盟_应急好项目加盟_新奇特项目招商 - 中红方宁(北京) 供应链有限公司 | 大型低温冷却液循环泵-低温水槽冷阱「厂家品牌」京华仪器_京华仪器 | 分光色差仪,测色仪,反透射灯箱,爱色丽分光光度仪,美能达色差仪维修_苏州欣美和仪器有限公司 | 济南拼接屏_山东液晶拼接屏_济南LED显示屏—维康国际官网 | 北京网站建设|北京网站开发|北京网站设计|高端做网站公司 | 防火板_饰面耐火板价格、厂家_品牌认准格林雅 | LCD3D打印机|教育|桌面|光固化|FDM3D打印机|3D打印设备-广州造维科技有限公司 | 苏州工作服定做-工作服定制-工作服厂家网站-尺品服饰科技(苏州)有限公司 | 存包柜厂家_电子存包柜_超市存包柜_超市电子存包柜_自动存包柜-洛阳中星 | TPE_TPE热塑性弹性体_TPE原料价格_TPE材料厂家-惠州市中塑王塑胶制品公司- 中塑王塑胶制品有限公司 | 沈阳建筑设计公司_加固改造设计_厂房设计_设计资质加盟【金辉设计】 | 阁楼货架_阁楼平台_仓库仓储设备_重型货架_广州金铁牛货架厂 |