电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

Python 爬蟲批量爬取網(wǎng)頁(yè)圖片保存到本地的實(shí)現(xiàn)代碼

瀏覽:6日期:2022-07-01 11:29:03

其實(shí)和爬取普通數(shù)據(jù)本質(zhì)一樣,不過(guò)我們直接爬取數(shù)據(jù)會(huì)直接返回,爬取圖片需要處理成二進(jìn)制數(shù)據(jù)保存成圖片格式(.jpg,.png等)的數(shù)據(jù)文本。

現(xiàn)在貼一個(gè)url=https://img.ivsky.com/img/tupian/t/201008/05/bianxingjingang-001.jpg請(qǐng)復(fù)制上面的url直接在某個(gè)瀏覽器打開,你會(huì)看到如下內(nèi)容:

Python 爬蟲批量爬取網(wǎng)頁(yè)圖片保存到本地的實(shí)現(xiàn)代碼

這就是通過(guò)網(wǎng)頁(yè)訪問(wèn)到的該網(wǎng)站的該圖片,于是我們可以直接利用requests模塊,進(jìn)行這個(gè)圖片的請(qǐng)求,于是這個(gè)網(wǎng)站便會(huì)返回給我們?cè)搱D片的數(shù)據(jù),我們?cè)侔褦?shù)據(jù)寫入本地文件就行,比較簡(jiǎn)單。

import requestsheaders={ ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400’}url=’https://img.ivsky.com/img/tupian/t/201008/05/bianxingjingang-001.jpg’re=requests.get(url,headers=headers)print(re.status_code)#查看請(qǐng)求狀態(tài),返回200說(shuō)明正常path=’test.jpg’#文件儲(chǔ)存地址with open(path, ’wb’) as f:#把圖片數(shù)據(jù)寫入本地,wb表示二進(jìn)制儲(chǔ)存 for chunk in re.iter_content(chunk_size=128):f.write(chunk)

然后得到test.jpg圖片,如下

Python 爬蟲批量爬取網(wǎng)頁(yè)圖片保存到本地的實(shí)現(xiàn)代碼

點(diǎn)擊打開查看如下:

Python 爬蟲批量爬取網(wǎng)頁(yè)圖片保存到本地的實(shí)現(xiàn)代碼

便是下載成功辣,很簡(jiǎn)單吧。

現(xiàn)在分析下批量下載,我們將上面的代碼打包成一個(gè)函數(shù),于是針對(duì)每張圖片,單獨(dú)一個(gè)名字,單獨(dú)一個(gè)圖片文件請(qǐng)求,于是有如下代碼:

import requestsdef get_pictures(url,path): headers={ ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400’} re=requests.get(url,headers=headers) print(re.status_code)#查看請(qǐng)求狀態(tài),返回200說(shuō)明正常 with open(path, ’wb’) as f:#把圖片數(shù)據(jù)寫入本地,wb表示二進(jìn)制儲(chǔ)存for chunk in re.iter_content(chunk_size=128): f.write(chunk)url=’https://img.ivsky.com/img/tupian/t/201008/05/bianxingjingang-001.jpg’path=’test.jpg’#文件儲(chǔ)存地址get_pictures(url,path)

現(xiàn)在要實(shí)現(xiàn)批量下載圖片,也就是批量獲得圖片的url,那么我們就得分析網(wǎng)頁(yè)的代碼結(jié)構(gòu),打開原始網(wǎng)站https://www.ivsky.com/tupian/bianxingjingang_v622/,會(huì)看到如下的圖片:

Python 爬蟲批量爬取網(wǎng)頁(yè)圖片保存到本地的實(shí)現(xiàn)代碼

于是我們需要分別得到該頁(yè)面中顯示的所有圖片的url,于是我們?cè)俅斡胷equests模塊返回當(dāng)前該頁(yè)面的內(nèi)容,如下:

import requestsheaders={ ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400’}url=’https://www.ivsky.com/tupian/bianxingjingang_v622/’re=requests.get(url,headers=headers)print(re.text)

運(yùn)行會(huì)返回當(dāng)前該頁(yè)面的網(wǎng)頁(yè)結(jié)構(gòu)內(nèi)容,于是我們找到和圖片相關(guān)的也就是.jpg或者.png等圖片格式的字條,如下:

Python 爬蟲批量爬取網(wǎng)頁(yè)圖片保存到本地的實(shí)現(xiàn)代碼

上面圈出來(lái)的**//img.ivsky.com/img/tupian/t/201008/05/bianxingjingang-017.jpg**便是我們的圖片url,不過(guò)還需要前面加上https:,于是完成的url就是https://img.ivsky.com/img/tupian/t/201008/05/bianxingjingang-017.jpg。

我們知道了這個(gè)結(jié)構(gòu),現(xiàn)在就是把這個(gè)提取出來(lái),寫個(gè)簡(jiǎn)單的解析式:

import requestsheaders={ ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400’}url=’https://www.ivsky.com/tupian/bianxingjingang_v622/’re=requests.get(url,headers=headers)def get_pictures_urls(text): st=’img src='http://www.hdgsjgj.cn/bcjs/’ m=len(st) i=0 n=len(text) urls=[]#儲(chǔ)存url while i<n: if text[i:i+m]==st: url=’’ for j in range(i+m,n):if text[j]==’'’: i=j urls.append(url) breakurl+=text[j] i+=1 return urlsurls=get_pictures_urls(re.text)for url in urls: print(url)

打印結(jié)果如下:Python 爬蟲批量爬取網(wǎng)頁(yè)圖片保存到本地的實(shí)現(xiàn)代碼

得到了url,現(xiàn)在就直接放入一開始的get_pictures函數(shù)中,爬取圖片辣。

import requestsdef get_pictures(url,path): headers={ ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400’} re=requests.get(url,headers=headers) print(re.status_code)#查看請(qǐng)求狀態(tài),返回200說(shuō)明正常 with open(path, ’wb’) as f:#把圖片數(shù)據(jù)寫入本地,wb表示二進(jìn)制儲(chǔ)存for chunk in re.iter_content(chunk_size=128): f.write(chunk)def get_pictures_urls(text): st=’img src='http://www.hdgsjgj.cn/bcjs/’ m=len(st) i=0 n=len(text) urls=[]#儲(chǔ)存url while i<n: if text[i:i+m]==st: url=’’ for j in range(i+m,n):if text[j]==’'’: i=j urls.append(url) breakurl+=text[j] i+=1 return urlsheaders={ ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400’}url=’https://www.ivsky.com/tupian/bianxingjingang_v622/’re=requests.get(url,headers=headers)urls=get_pictures_urls(re.text)#獲取當(dāng)前頁(yè)面所有圖片的urlfor i in range(len(urls)):#批量爬取圖片 url=’https:’+urls[i] path=’變形金剛’+str(i)+’.jpg’ get_pictures(url,path)

結(jié)果如下:

Python 爬蟲批量爬取網(wǎng)頁(yè)圖片保存到本地的實(shí)現(xiàn)代碼

然后就完成辣,這里只是簡(jiǎn)單介紹下批量爬取圖片的過(guò)程,具體的網(wǎng)站需要具體分析,所以本文盡可能詳細(xì)的展示了批量爬取圖片的過(guò)程分析,希望對(duì)你的學(xué)習(xí)有所幫助,如有問(wèn)題請(qǐng)及時(shí)指出,謝謝~

到此這篇關(guān)于Python 爬蟲批量爬取網(wǎng)頁(yè)圖片保存到本地的文章就介紹到這了,更多相關(guān)Python 爬蟲爬取圖片保存到本地內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 碳化硅,氮化硅,冰晶石,绢云母,氟化铝,白刚玉,棕刚玉,石墨,铝粉,铁粉,金属硅粉,金属铝粉,氧化铝粉,硅微粉,蓝晶石,红柱石,莫来石,粉煤灰,三聚磷酸钠,六偏磷酸钠,硫酸镁-皓泉新材料 | 首页-浙江橙树网络技术有限公司 石磨面粉机|石磨面粉机械|石磨面粉机组|石磨面粉成套设备-河南成立粮油机械有限公司 | 超高频感应加热设备_高频感应电源厂家_CCD视觉检测设备_振动盘视觉检测设备_深圳雨滴科技-深圳市雨滴科技有限公司 | 博莱特空压机|博莱特-阿特拉斯独资空压机品牌核心代理商 | 3A别墅漆/3A环保漆_广东美涂士建材股份有限公司【官网】 | 消泡剂_水处理消泡剂_切削液消泡剂_涂料消泡剂_有机硅消泡剂_广州中万新材料生产厂家 | 灌木树苗-绿化苗木-常绿乔木-价格/批发/基地 - 四川成都途美园林 | 撕碎机,撕破机,双轴破碎机-大件垃圾破碎机厂家| HDPE土工膜,复合土工膜,防渗膜价格,土工膜厂家-山东新路通工程材料有限公司 | 焦作网 WWW.JZRB.COM | 慈溪麦田广告公司,提供慈溪广告设计。 | 粉末冶金-粉末冶金齿轮-粉末冶金零件厂家-东莞市正朗精密金属零件有限公司 | 仿清水混凝土_清水混凝土装修_施工_修饰_保护剂_修补_清水混凝土修复-德州忠岭建筑装饰工程 | 英思科GTD-3000EX(美国英思科气体检测仪MX4MX6)百科-北京嘉华众信科技有限公司 | 分光色差仪,测色仪,反透射灯箱,爱色丽分光光度仪,美能达色差仪维修_苏州欣美和仪器有限公司 | 板框压滤机-隔膜压滤机配件生产厂家-陕西华星佳洋装备制造有限公司 | 生态板-实木生态板-生态板厂家-源木原作生态板品牌-深圳市方舟木业有限公司 | 数控专用机床,专用机床,自动线,组合机床,动力头,自动化加工生产线,江苏海鑫机床有限公司 | bng防爆挠性连接管-定做金属防爆挠性管-依客思防爆科技 | 国际船舶网 - 船厂、船舶、造船、船舶设备、航运及海洋工程等相关行业综合信息平台 | 塑胶跑道_学校塑胶跑道_塑胶球场_运动场材料厂家_中国塑胶跑道十大生产厂家_混合型塑胶跑道_透气型塑胶跑道-广东绿晨体育设施有限公司 | 透平油真空滤油机-变压器油板框滤油机-滤油车-华之源过滤设备 | STRO|DTRO-STRO反渗透膜(科普)_碟滤 | 福州时代广告制作装饰有限公司-福州广告公司广告牌制作,福州展厅文化墙广告设计, | 全钢实验台,实验室工作台厂家-无锡市辰之航装饰材料有限公司 | 周口风机|周风风机|河南省周口通用风机厂 | 净化工程_无尘车间_无尘车间装修-广州科凌净化工程有限公司 | 篮球架_乒乓球台_足球门_校园_竞技体育器材_厂家_价格-沧州浩然体育器材有限公司 | 河南彩印编织袋,郑州饲料编织袋定制,肥料编织袋加工厂-盛军塑业 河南凯邦机械制造有限公司 | 液压油缸-液压缸厂家价格,液压站系统-山东国立液压制造有限公司 液压油缸生产厂家-山东液压站-济南捷兴液压机电设备有限公司 | 南京泽朗生物科技有限公司-液体饮料代加工_果汁饮料代加工_固体饮料代加工 | 冷轧机|两肋冷轧机|扁钢冷轧机|倒立式拉丝机|钢筋拔丝机|收线机-巩义市华瑞重工机械制造有限公司 | 三效蒸发器_多效蒸发器价格_四效三效蒸发器厂家-青岛康景辉 | 防弹玻璃厂家_防爆炸玻璃_电磁屏蔽玻璃-四川大硅特玻科技有限公司 | 工业CT-无锡璟能智能仪器有限公司 | 电销卡 防封电销卡 不封号电销卡 电话销售卡 白名单电销卡 电销系统 外呼系统 | 游泳池设备安装工程_恒温泳池设备_儿童游泳池设备厂家_游泳池水处理设备-东莞市君达泳池设备有限公司 | 3d可视化建模_三维展示_产品3d互动数字营销_三维动画制作_3D虚拟商城 【商迪3D】三维展示服务商 广东健伦体育发展有限公司-体育工程配套及销售运动器材的体育用品服务商 | 防火门-专业生产甲级不锈钢钢质防火门厂家资质齐全-广东恒磊安防设备有限公司 | 高精度电阻回路测试仪-回路直流电阻测试仪-武汉特高压电力科技有限公司 | 游泳池设备安装工程_恒温泳池设备_儿童游泳池设备厂家_游泳池水处理设备-东莞市君达泳池设备有限公司 |