电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

詳解Python爬蟲爬取博客園問題列表所有的問題

瀏覽:28日期:2022-06-29 15:45:01
一.準備工作 首先,本文使用的技術為 python+requests+bs4,沒有了解過可以先去了解一下。 我們的需求是將博客園問題列表中的所有問題的題目爬取下來。

詳解Python爬蟲爬取博客園問題列表所有的問題

二.分析: 首先博客園問題列表頁面右鍵點擊檢查 通過Element查找問題所對應的屬性或標簽

詳解Python爬蟲爬取博客園問題列表所有的問題

可以發(fā)現(xiàn)在div class ='one_entity'中存在頁面中分別對應每一個問題接著div class ='news_item'中h2標簽下是我們想要拿到的數(shù)據(jù)

三.代碼實現(xiàn)

首先導入requests和BeautifulSoup

import requestsfrom bs4 import BeautifulSoup

由于很多網(wǎng)站定義了反爬策略,所以進行偽裝一下

headers = { ’User-Agent’: ’Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36’ }

在這里User-Agent只是其中的一種方式,而且大家的User-Agent可能不同。

爬取數(shù)據(jù)main代碼

url = ’https://q.cnblogs.com/list/unsolved?’ fp = open(’blog’, ’w’, encoding=’utf-8’) for page in range(1,26): page = str(page) param = { ’page’:page } page_text = requests.get(url=url,params=param,headers=headers).text page_soup = BeautifulSoup(page_text,’lxml’) text_list = page_soup.select(’.one_entity > .news_item > h2’) for h2 in text_list: text = h2.a.string fp.write(text+’n’) print(’第’+page+’頁爬取成功!’)

注意一下這里,由于我們需要的是多張頁面的數(shù)據(jù),所以在發(fā)送請求的url中我們就要針對不同的頁面發(fā)送請求,https://q.cnblogs.com/list/unsolved?page=我們要做的是在發(fā)送請求的url時候,根據(jù)參數(shù)來填充頁數(shù)page,代碼實現(xiàn):

url = ’https://q.cnblogs.com/list/unsolved?’ for page in range(1,26): page = str(page) param = { ’page’:page } page_text = requests.get(url=url,params=param,headers=headers).text

將所有的h2數(shù)組拿到,進行遍歷,通過取出h2中a標簽中的文本,并將每取出來的文本寫入到文件中,由于要遍歷多次,所以保存文件在上面的代碼中。

text_list = page_soup.select(’.one_entity > .news_item > h2’) for h2 in text_list: text = h2.a.string fp.write(text+’n’)

完整代碼如下:

import requestsfrom bs4 import BeautifulSoupif __name__ == ’__main__’: headers = { ’User-Agent’: ’Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36’ } url = ’https://q.cnblogs.com/list/unsolved?’ fp = open(’blog’, ’w’, encoding=’utf-8’) for page in range(1,26): page = str(page) param = { ’page’:page } page_text = requests.get(url=url,params=param,headers=headers).text page_soup = BeautifulSoup(page_text,’lxml’) text_list = page_soup.select(’.one_entity > .news_item > h2’) for h2 in text_list: text = h2.a.string fp.write(text+’n’) print(’第’+page+’頁爬取成功!’)四.運行結果

運行代碼:

詳解Python爬蟲爬取博客園問題列表所有的問題

詳解Python爬蟲爬取博客園問題列表所有的問題

到此這篇關于詳解Python爬蟲爬取博客園問題列表所有的問題的文章就介紹到這了,更多相關Python爬蟲爬取列表內容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持好吧啦網(wǎng)!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 全自动烧卖机厂家_饺子机_烧麦机价格_小笼汤包机_宁波江北阜欣食品机械有限公司 | 雷冲击高压发生器-水内冷直流高压发生器-串联谐振分压器-武汉特高压电力科技有限公司 | 煤矿支护网片_矿用勾花菱形网_缝管式_管缝式锚杆-邯郸市永年区志涛工矿配件有限公司 | 红酒招商加盟-葡萄酒加盟-进口红酒代理-青岛枞木酒业有限公司 | 液压油缸生产厂家-山东液压站-济南捷兴液压机电设备有限公司 | 排烟防火阀-消防排烟风机-正压送风口-厂家-价格-哪家好-德州鑫港旺通风设备有限公司 | ◆大型吹塑加工|吹塑加工|吹塑代加工|吹塑加工厂|吹塑设备|滚塑加工|滚塑代加工-莱力奇塑业有限公司 | 东莞市天进机械有限公司-钉箱机-粘箱机-糊箱机-打钉机认准东莞天进机械-厂家直供更放心! | 江西自考网| 锂电池生产厂家-电动自行车航模无人机锂电池定制-世豹新能源 | 泰安办公家具-泰安派格办公用品有限公司 | 今日扫码_溯源二维码_产品防伪一物一码_红包墙营销方案 | 机械立体车库租赁_立体停车设备出租_智能停车场厂家_春华起重 | 恒湿机_除湿加湿一体机_恒湿净化消毒一体机厂家-杭州英腾电器有限公司 | 东莞螺丝|东莞螺丝厂|东莞不锈钢螺丝|东莞组合螺丝|东莞精密螺丝厂家-东莞利浩五金专业紧固件厂家 | 泰国试管婴儿_泰国第三代试管婴儿_泰国试管婴儿费用/多少钱_孕泰来 | 北京公司注册_代理记账_代办商标注册工商执照-企力宝 | 矿用履带式平板车|探水钻机|气动架柱式钻机|架柱式液压回转钻机|履带式钻机-启睿探水钻机厂家 | 天然鹅卵石滤料厂家-锰砂滤料-石英砂滤料-巩义东枫净水 | 折弯机-刨槽机-数控折弯机-数控刨槽机-数控折弯机厂家-深圳豐科机械有限公司 | 珠海白蚁防治_珠海灭鼠_珠海杀虫灭鼠_珠海灭蟑螂_珠海酒店消杀_珠海工厂杀虫灭鼠_立净虫控防治服务有限公司 | 中央空调温控器_风机盘管温控器_智能_液晶_三速开关面板-中央空调温控器厂家 | 管家婆-管家婆软件-管家婆辉煌-管家婆进销存-管家婆工贸ERP | 智能气瓶柜(大型气瓶储存柜)百科| 新疆十佳旅行社_新疆旅游报价_新疆自驾跟团游-新疆中西部国际旅行社 | 高铝矾土熟料_细粉_骨料_消失模_铸造用铝矾土_铝酸钙粉—嵩峰厂家 | 丹佛斯变频器-丹佛斯压力开关-变送器-广州市风华机电设备有限公司 | 酒吧霸屏软件_酒吧霸屏系统,酒吧微上墙,夜场霸屏软件,酒吧点歌软件,酒吧互动游戏,酒吧大屏幕软件系统下载 | 河南生物显微镜,全自动冰冻切片机-河南荣程联合科技有限公司 | 在线钠离子分析仪-硅酸根离子浓度测定仪-油液水分测定仪价格-北京时代新维测控设备有限公司 | 威海防火彩钢板,威海岩棉复合板,威海彩钢瓦-文登区九龙岩棉复合板厂 | 石牌坊价格石牌坊雕刻制作_石雕牌坊牌楼石栏杆厂家_山东嘉祥石雕有限公司 | 钢制拖链生产厂家-全封闭钢制拖链-能源钢铝拖链-工程塑料拖链-河北汉洋机械制造有限公司 | 应急灯_消防应急灯_应急照明灯_应急灯厂家-大成智慧官网 | 低浓度恒温恒湿称量系统,强光光照培养箱-上海三腾仪器有限公司 | 温州中研白癜风专科_温州治疗白癜风_温州治疗白癜风医院哪家好_温州哪里治疗白癜风 | 建筑资质代办_工程施工资质办理_资质代办公司_北京众聚企服 | 亮化工程,亮化设计,城市亮化工程,亮化资质合作,长沙亮化照明,杰奥思【官网】 | CCE素质教育博览会 | CCE素博会 | 教育展 | 美育展 | 科教展 | 素质教育展 | 量子管通环-自清洗过滤器-全自动反冲洗过滤器-北京罗伦过滤技术集团有限公司 | 智能垃圾箱|垃圾房|垃圾分类亭|垃圾分类箱专业生产厂家定做-宿迁市传宇环保设备有限公司 |