电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

使用Python爬取小姐姐圖片(beautifulsoup法)

瀏覽:8日期:2022-06-28 08:01:17

Python有許多強(qiáng)大的庫(kù)用于爬蟲,如beautifulsoup、requests等,本文將以網(wǎng)站https://www.xiurenji.cc/XiuRen/為例(慎點(diǎn)!!),講解網(wǎng)絡(luò)爬取圖片的一般步驟。為什么選擇這個(gè)網(wǎng)站?其實(shí)與網(wǎng)站的內(nèi)容無(wú)關(guān)。主要有兩項(xiàng)技術(shù)層面的原因:①該網(wǎng)站的頁(yè)面構(gòu)造較有規(guī)律,適合新手對(duì)爬蟲的技巧加強(qiáng)認(rèn)識(shí)。②該網(wǎng)站沒(méi)有反爬蟲機(jī)制,可以放心使用爬蟲。

第三方庫(kù)需求

beautifulsoup requests 步驟

打開網(wǎng)站,點(diǎn)擊不同的頁(yè)面:發(fā)現(xiàn)其首頁(yè)是https://www.xiurenji.cc/XiuRen/,而第二頁(yè)是https://www.xiurenji.cc/XiuRen/index2.html,第三頁(yè)第四頁(yè)以此類推。為了爬蟲代碼的普適性,我們不妨從第二頁(yè)以后進(jìn)行構(gòu)造url。

使用Python爬取小姐姐圖片(beautifulsoup法)

選中封面圖片,點(diǎn)擊檢查:

使用Python爬取小姐姐圖片(beautifulsoup法)

可以發(fā)現(xiàn),圖片的信息,都在’div’,class_=’dan’里,而鏈接又在a標(biāo)簽下的href里。據(jù)此我們可以寫一段代碼提取出每一個(gè)封面圖片的url:

def getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網(wǎng)站每一個(gè)首頁(yè)的網(wǎng)址 res=requests.get(url)#發(fā)送請(qǐng)求 res.encoding='gbk'#設(shè)置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整 return urls#返回該主頁(yè)每一個(gè)封面對(duì)應(yīng)的網(wǎng)址

點(diǎn)擊封面圖片,打開不同的頁(yè)面,可以發(fā)現(xiàn),首頁(yè)的網(wǎng)址是https://www.xiurenji.cc/XiuRen/xxxx.html,而第二頁(yè)的網(wǎng)址是https://www.xiurenji.cc/XiuRen/xxxx_1.html,第三第四頁(yè)同理。同樣為了普適性,我們從第二頁(yè)開始爬取。

使用Python爬取小姐姐圖片(beautifulsoup法)

右鍵,點(diǎn)擊“檢查”:

使用Python爬取小姐姐圖片(beautifulsoup法)

可以發(fā)現(xiàn)所有的圖片信息都儲(chǔ)存在’div’,class_=’img’中,鏈接、標(biāo)題分別在img標(biāo)簽中的src和alt中,我們同樣也可以將它們提取出來(lái)。

def getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網(wǎng)站每一個(gè)首頁(yè)的網(wǎng)址 res=requests.get(url)#發(fā)送請(qǐng)求 res.encoding='gbk'#設(shè)置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整 return urls#返回該主頁(yè)每一個(gè)封面對(duì)應(yīng)的網(wǎng)址

完整代碼

import requestsfrom bs4 import BeautifulSoupdef getFirstPage(page): url=’https://www.xiurenji.cc/XiuRen/index’+str(page)+’.html’#獲得網(wǎng)站每一個(gè)首頁(yè)的網(wǎng)址 res=requests.get(url)#發(fā)送請(qǐng)求 res.encoding='gbk'#設(shè)置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features=’lxml’) lists=soup.find_all(’div’,class_=’dan’)#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值 urls=[] for item in lists: url1=item.find(’a’).get(’href’)#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址 urls.append(’https://www.xiurenji.cc’+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整 return urls#返回該主頁(yè)每一個(gè)封面對(duì)應(yīng)的網(wǎng)址def download(urls): for url1 in urls: print('prepare to download pictures in '+url1) getEveryPage(url1)#下載頁(yè)面內(nèi)的圖片 print('all pictures in '+url1+'are downloaded') def getEveryPage(url1): total=0#total的作用:對(duì)屬于每一個(gè)封面內(nèi)的圖片一次編號(hào) for n in range (1,11):#每一個(gè)封面對(duì)應(yīng)下載10張圖,可自行調(diào)整 temp=url1.replace(’.html’,’’) url2=temp+’_’+str(n)+’.html’#獲得每一內(nèi)部頁(yè)面的網(wǎng)址 res=requests.get(url2) res.encoding='gbk' html=res.text soup=BeautifulSoup(html,features=’lxml’) lists1=soup.find_all(’div’,class_=’img’)#儲(chǔ)存圖片的路徑 for item in lists1: url=item.find(’img’).get(’src’) title=item.find(’img’).get(’alt’)#獲取圖片及其標(biāo)題 picurl=’https://www.xiurenji.cc’+url#獲取完整的圖片標(biāo)題 picture=requests.get(picurl).content#下載圖片 address=’D:pythonimages’+’’#自定義保存圖片的路徑 with open(address+title+str(total)+’.jpg’,’wb’) as file:#保存圖片 print('downloading'+title+str(total)) total=total+1 file.write(picture) if __name__ == '__main__': page=int(input(’input the page you want:’)) urls=getFirstPage(page) download(urls)

本文僅供學(xué)習(xí)參考,切勿用作其他用途!

到此這篇關(guān)于Python爬取小姐姐圖片(beautifulsoup法)的文章就介紹到這了,更多相關(guān)Python爬取小姐姐圖片內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 超声波电磁流量计-液位计-孔板流量计-料位计-江苏信仪自动化仪表有限公司 | 章丘丰源机械有限公司 - 三叶罗茨风机,罗茨鼓风机,罗茨风机 | 高博医疗集团上海阿特蒙医院 | 次氯酸钠厂家,涉水级次氯酸钠,三氯化铁生产厂家-淄博吉灿化工 | 电子巡更系统-巡检管理系统-智能巡检【金万码】 | 马尔表面粗糙度仪-MAHR-T500Hommel-Mitutoyo粗糙度仪-笃挚仪器 | 扒渣机厂家_扒渣机价格_矿用扒渣机_铣挖机_撬毛台车_襄阳永力通扒渣机公司 | 琉璃瓦-琉璃瓦厂家-安徽盛阳新型建材科技有限公司 | 捷码低代码平台 - 3D数字孪生_大数据可视化开发平台「免费体验」 | 重庆中专|职高|技校招生-重庆中专招生网 | 芝麻黑-芝麻黑石材厂家-永峰石业| 钢骨架轻型板_膨石轻型板_钢骨架轻型板价格_恒道新材料 | DWS物流设备_扫码称重量方一体机_快递包裹分拣机_广东高臻智能装备有限公司 | 不干胶标签-不干胶贴纸-不干胶标签定制-不干胶标签印刷厂-弗雷曼纸业(苏州)有限公司 | NM-02立式吸污机_ZHCS-02软轴刷_二合一吸刷软轴刷-厦门地坤科技有限公司 | 宿松新闻网 宿松网|宿松在线|宿松门户|安徽宿松(直管县)|宿松新闻综合网站|宿松官方新闻发布 | 单级/双级旋片式真空泵厂家,2xz旋片真空泵-浙江台州求精真空泵有限公司 | 山东氧化铁红,山东铁红-淄博科瑞化工有限公司 | 工业车间焊接-整体|集中除尘设备-激光|等离子切割机配套除尘-粉尘烟尘净化治理厂家-山东美蓝环保科技有限公司 | 防堵吹扫装置-防堵风压测量装置-电动操作显示器-兴洲仪器 | 防爆型气象站_农业气象站_校园气象站_农业四情监测系统「山东万象环境科技有限公司」 | 首页_中夏易经起名网 | 包塑软管|金属软管|包塑金属软管-闵彬管业 | 玉米深加工机械,玉米加工设备,玉米加工机械等玉米深加工设备制造商-河南成立粮油机械有限公司 | 泰安办公家具-泰安派格办公用品有限公司 | 贵阳用友软件,贵州财务软件,贵阳ERP软件_贵州优智信息技术有限公司 | 无锡网站建设_企业网站定制-网站制作公司-阿凡达网络 | 海水晶,海水素,海水晶价格-潍坊滨海经济开发区强隆海水晶厂 | 智成电子深圳tdk一级代理-提供TDK电容电感贴片蜂鸣器磁芯lambda电源代理经销,TDK代理商有哪些TDK一级代理商排名查询。-深圳tdk一级代理 | 石家庄救护车出租_重症转院_跨省跨境医疗转送_活动赛事医疗保障_康复出院_放弃治疗_腾康26年医疗护送转诊团队 | 螺旋绞龙叶片,螺旋输送机厂家,山东螺旋输送机-淄博长江机械制造有限公司 | ◆大型吹塑加工|吹塑加工|吹塑代加工|吹塑加工厂|吹塑设备|滚塑加工|滚塑代加工-莱力奇塑业有限公司 | 无锡网站建设-做网站-建网站-网页设计制作-阿凡达建站公司 | 冻干机(冷冻干燥机)_小型|实验型|食品真空冷冻干燥机-松源 | 东莞市踏板石餐饮管理有限公司_正宗桂林米粉_正宗桂林米粉加盟_桂林米粉加盟费-东莞市棒子桂林米粉 | 微型气泵-真空-蠕动-水泵-厂家-深圳市品亚科技有限公司 | 上海防爆真空干燥箱-上海防爆冷库-上海防爆冷柜?-上海浦下防爆设备厂家? | 湖州织里童装_女童男童中大童装_款式多尺码全_织里儿童网【官网】-嘉兴嘉乐网络科技有限公司 | MES系统-WMS系统-MES定制开发-制造执行MES解决方案-罗浮云计算 | 对照品_中药对照品_标准品_对照药材_「格利普」高纯中药标准品厂家-成都格利普生物科技有限公司 澳门精准正版免费大全,2025新澳门全年免费,新澳天天开奖免费资料大全最新,新澳2025今晚开奖资料,新澳马今天最快最新图库 | 广西绿桂涂料--承接隔热涂料、隔音涂料、真石漆、多彩仿石漆等涂料工程双包施工 |