电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

python爬蟲之bs4數據解析

瀏覽:114日期:2022-06-21 10:09:07
一、實現數據解析

因為正則表達式本身有難度,所以在這里為大家介紹一下 bs4 實現數據解析。除此之外還有 xpath 解析。因為 xpath 不僅可以在 python 中使用,所以 bs4 和 正則解析一樣,僅僅是簡單地寫兩個案例(爬取可翻頁的圖片,以及爬取三國演義)。以后的重點會在 xpath 上。

二、安裝庫

閑話少說,我們先來安裝 bs4 相關的外來庫。比較簡單。

1.首先打開 cmd 命令面板,依次安裝bs4 和 lxml。

2. 命令分別是 pip install bs4 和 pip install lxml 。

3. 安裝完成后我們可以試著調用他們,看看會不會報錯。

因為本人水平有限,所以如果出現報錯,兄弟們還是百度一下好啦。(總不至于 cmd 命令打錯了吧 ~~)

三、bs4 的用法

閑話少說,先簡單介紹一下 bs4 的用法。

python爬蟲之bs4數據解析python爬蟲之bs4數據解析

四、爬取圖片

import requestsfrom bs4 import BeautifulSoupimport osif __name__ == '__main__': # 創建文件夾 if not os.path.exists('./糗圖(bs4)'):os.mkdir('./糗圖(bs4)') # UA偽裝 header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'} # 指定 url for i in range(1, 3): # 翻兩頁url = 'https://www.qiushibaike.com/imgrank/page/%s/' % str(i)# 獲取源碼數據page = requests.get(url = url, headers = header).text# 數據解析soup = BeautifulSoup(page, 'lxml')data_list = soup.select('.thumb > a')for data in data_list: url = data.img['src'] title = url.split('/')[-1] new_url = 'https:' + url photo = requests.get(url = new_url, headers = header).content # 存儲 with open('./糗圖(bs4)/' + title, 'wb') as fp:fp.write(photo) print(title, '下載完成!!!') print('over!!!')五、爬取三國演義

import requestsfrom bs4 import BeautifulSoupif __name__ == '__main__': # UA 偽裝 header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'} # URL url = 'http://sanguo.5000yan.com/' # 請求命令 page_text = requests.get(url = url, headers = header) page_text.encoding = 'utf-8' page_text = page_text.text soup = BeautifulSoup(page_text, 'lxml')# bs4 解析 li_list = soup.select('.sidamingzhu-list-mulu > ul > li')for li in li_list:print(li)new_url = li.a['href']title = li.a.text# 新的請求命令response = requests.get(url = new_url, headers = header)response.encoding = 'utf-8'new_page_text = response.textnew_soup = BeautifulSoup(new_page_text, 'lxml')page = new_soup.find('div', class_ = 'grap').textwith open('./三國演義.txt', 'a', encoding = 'utf-8') as fp: fp.write('n' + title + ':' + 'n' + 'n' + page)print(title + '下載完成!!!')

到此這篇關于python爬蟲之bs4數據解析的文章就介紹到這了,更多相關python bs4數據解析內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 混合反应量热仪-高温高压量热仪-微机差热分析仪DTA|凯璞百科 | 金蝶帐无忧|云代账软件|智能财税软件|会计代账公司专用软件 | 婚博会2024时间表_婚博会门票领取_婚博会地址-婚博会官网 | 合肥升降机-合肥升降货梯-安徽升降平台「厂家直销」-安徽鼎升自动化科技有限公司 | 广州印刷厂_广州彩印厂-广州艺彩印务有限公司 | 奶茶加盟,奶茶加盟店连锁品牌-甜啦啦官网 | 酒万铺-酒水招商-酒水代理 | 有机肥设备生产制造厂家,BB掺混肥搅拌机、复合肥设备生产线,有机肥料全部加工设备多少钱,对辊挤压造粒机,有机肥造粒设备 -- 郑州程翔重工机械有限公司 | 水上浮桥-游艇码头-浮动码头-游船码头-码瑞纳游艇码头工程 | 广东成考网-广东成人高考网 | 在线PH计-氧化锆分析仪-在线浊度仪-在线溶氧仪- 无锡朝达 | 消防设施操作员考试报名时间,报名入口,报考条件 | DAIKIN电磁阀-意大利ATOS电磁阀-上海乾拓贸易有限公司 | 聚合氯化铝-碱式氯化铝-聚合硫酸铁-聚氯化铝铁生产厂家多少钱一吨-聚丙烯酰胺价格_河南浩博净水材料有限公司 | 广东恩亿梯电源有限公司【官网】_UPS不间断电源|EPS应急电源|模块化机房|电动汽车充电桩_UPS电源厂家(恩亿梯UPS电源,UPS不间断电源,不间断电源UPS) | Jaeaiot捷易科技-英伟达AI显卡模组/GPU整机服务器供应商 | 小程序开发公司-小程序制作-微信小程序开发-小程序定制-咏熠软件 | NM-02立式吸污机_ZHCS-02软轴刷_二合一吸刷软轴刷-厦门地坤科技有限公司 | 变位机,焊接变位机,焊接变位器,小型变位机,小型焊接变位机-济南上弘机电设备有限公司 | 石英砂矿石色选机_履带辣椒色选机_X光异物检测机-合肥幼狮光电科技 | 钢格板|镀锌钢格板|热镀锌钢格板|格栅板|钢格板|钢格栅板|热浸锌钢格板|平台钢格板|镀锌钢格栅板|热镀锌钢格栅板|平台钢格栅板|不锈钢钢格栅板 - 专业钢格板厂家 | 铆钉机|旋铆机|东莞旋铆机厂家|鸿佰专业生产气压/油压/自动铆钉机 | 渣油泵,KCB齿轮泵,不锈钢齿轮泵,重油泵,煤焦油泵,泊头市泰邦泵阀制造有限公司 | 耐高温风管_耐高温软管_食品级软管_吸尘管_钢丝软管_卫生级软管_塑料波纹管-东莞市鑫翔宇软管有限公司 | 碎石机设备-欧版反击破-欧版颚式破碎机(站)厂家_山东奥凯诺机械 高低温试验箱-模拟高低温试验箱订制-北京普桑达仪器科技有限公司【官网】 | 骨灰存放架|骨灰盒寄存架|骨灰架厂家|智慧殡葬|公墓陵园管理系统|网上祭奠|告别厅智能化-厦门慈愿科技 | 冷凝水循环试验箱-冷凝水试验箱-可编程高低温试验箱厂家-上海巨为(www.juweigroup.com) | 纸布|钩编布|钩针布|纸草布-莱州佳源工艺纸布厂 | 长沙广告公司_制作,长沙喷绘_发光字_招牌制作_长沙泓润广告官网 长城人品牌官网 | 农产品溯源系统_农产品质量安全追溯系统_溯源系统 | 电机修理_二手电机专家-河北豫通机电设备有限公司(原石家庄冀华高压电机维修中心) | 垃圾处理设备_餐厨垃圾处理设备_厨余垃圾处理设备_果蔬垃圾处理设备-深圳市三盛环保科技有限公司 | 铜镍-康铜-锰铜-电阻合金-NC003 - 杭州兴宇合金有限公司 | 电磁辐射仪-电磁辐射检测仪-pm2.5检测仪-多功能射线检测仪-上海何亦仪器仪表有限公司 | 细胞染色-流式双标-试剂盒免费代做-上海研谨生物科技有限公司 | 房在线-免费房产管理系统软件-二手房中介房屋房源管理系统软件 | 400电话_400电话申请_888元包年_400电话办理服务中心_400VIP网 | 蓝米云-专注于高性价比香港/美国VPS云服务器及海外公益型免费虚拟主机 | 成都治疗尖锐湿疣比较好的医院-成都治疗尖锐湿疣那家医院好-成都西南皮肤病医院 | 中式装修设计_全屋定制家具_实木仿古门窗花格厂家-喜迎门 | 数控专用机床,专用机床,自动线,组合机床,动力头,自动化加工生产线,江苏海鑫机床有限公司 |