电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Python使用xpath實現圖片爬取

瀏覽:5日期:2022-07-11 09:53:11

高性能異步爬蟲

目的:在爬蟲中使用異步實現高性能的數據爬取操作

異步爬蟲的方式:

- 多線程、多進程(不建議):

好處:可以為相關阻塞的操作單獨開啟多線程或進程,阻塞操作就可以異步執行;

弊端:無法無限制的開啟多線程或多進程。

- 線程池、進程池(適當的使用):

好處:我們可以降低系統對進程或線程創建和銷毀的一個頻率,從而很好的降低系統的開銷;

弊端:池中線程或進程的數據是有上限的。

代碼如下

# _*_ coding:utf-8 _*_'''@FileName :6.4k圖片解析爬取(異步高性能測試).py@CreateTime :2020/8/14 0014 10:01@Author : Lurker Zhang@E-mail : 289735192@qq.com@Desc. :'''import requestsfrom lxml import etreefrom setting.config import *import jsonimport osimport timefrom multiprocessing.dummy import Pooldef main(): # 圖片采集源地址 # source_url = ’http://pic.netbian.com/4kmeinv/’ # temp_url = ’http://pic.netbian.com/4kmeinv/index_{}.html’ # source_url = ’http://pic.netbian.com/4kdongman/’ # temp_url = ’http://pic.netbian.com/4kdongman/index_{}.html’ source_url = ’http://pic.netbian.com/4kmingxing/’ temp_url = ’http://pic.netbian.com/4kmingxing/index_{}.html’ # 本此采集前多少頁,大于1的整數 page_sum = 136 all_pic_list_url = [] if page_sum == 1: pic_list_url = source_url print(’開始下載:’ + pic_list_url) all_pic_list_url.append(pic_list_url) else: # 先采集第一頁 pic_list_url = source_url # 調用采集單頁圖片鏈接的函數 all_pic_list_url.append(pic_list_url) # 再采集第二頁開始后面的頁數 for page_num in range(2, page_sum + 1): pic_list_url = temp_url.format(page_num) all_pic_list_url.append(pic_list_url) # 單頁圖片多線程解析 pool1 = Pool(10) pool1.map(down_pic, all_pic_list_url) print(’采集完成,本地成功下載{0}張圖片,失敗{1}張圖片。’.format(total_success, total_fail)) # 存儲已下載文件名列表: with open('../depository/mingxing/pic_name_list.json', ’w’, encoding=’utf-8’) as fp: json.dump(pic_name_list, fp)def down_pic(pic_list_url): print('準備解析圖片列表頁:',pic_list_url) # 獲取圖片列表頁的網頁數據 pic_list_page_text = requests.get(url=pic_list_url, headers=headers).text tree_1 = etree.HTML(pic_list_page_text) # 獲取圖片地址列表 pic_show_url_list = tree_1.xpath(’//div[@class='slist']/ul//a/@href’) pic_url_list = [get_pic_url(’http://pic.netbian.com’ + pic_show_url) for pic_show_url in pic_show_url_list] # 開始下載并保存圖片(多線程) pool2 = Pool(5) pool2.map(save_pic, pic_url_list)def save_pic(pic_url): print('準備下載圖片:',pic_url) global total_success, total_fail, pic_name_list,path picname = get_pic_name(pic_url) if not picname in pic_name_list: # 獲取日期作為保存位置文件夾 pic = requests.get(url=pic_url, headers=headers).content try: with open(path + picname, ’wb’) as fp:fp.write(pic) except IOError: print(picname + '保存失敗') total_fail += 1 else: pic_name_list.append(picname) total_success += 1 print('成功保存圖片:{0},共成功采集{1}張。'.format(picname, total_success)) else: print('跳過,已下載過圖片:' + picname) total_fail += 1def get_pic_name(pic_url): return pic_url.split(’/’)[-1]def get_pic_url(pic_show_url): tree = etree.HTML(requests.get(url=pic_show_url, headers=headers).text) return ’http://pic.netbian.com/’ + tree.xpath(’//div[@class='photo-pic']/a/img/@src’)[0]if __name__ == ’__main__’: # 讀入已采集圖片的名稱庫,名稱存在重復的表示已經采集過將跳過不采集 if not os.path.exists(’../depository/mingxing/pic_name_list.json’): with open('../depository/mingxing/pic_name_list.json', ’w’, encoding='utf-8') as fp: json.dump([], fp) with open('../depository/mingxing/pic_name_list.json', 'r', encoding='utf-8') as fp: pic_name_list = json.load(fp) path = ’../depository/mingxing/’ + time.strftime(’%Y%m%d’, time.localtime()) + ’/’ if not os.path.exists(path): os.mkdir(path) # 記錄本次采集圖片的數量 total_success = 0 total_fail = 0 main()

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 烘干设备-热泵烘干机_广东雄贵能源设备有限公司 | PE拉伸缠绕膜,拉伸缠绕膜厂家,纳米缠绕膜-山东凯祥包装 | 洗地机-全自动/手推式洗地机-扫地车厂家_扬子清洁设备 | 乐之康护 - 专业护工服务平台,提供医院陪护-居家照护-居家康复 | ALC墙板_ALC轻质隔墙板_隔音防火墙板_轻质隔墙材料-湖北博悦佳 | 涡轮流量计_LWGY智能气体液体电池供电计量表-金湖凯铭仪表有限公司 | 无刷电机_直流无刷电机_行星减速机-佛山市藤尺机电设备有限公司 无菌检查集菌仪,微生物限度仪器-苏州长留仪器百科 | ★店家乐|服装销售管理软件|服装店收银系统|内衣店鞋店进销存软件|连锁店管理软件|收银软件手机版|会员管理系统-手机版,云版,App | 冷却塔风机厂家_静音冷却塔风机_冷却塔电机维修更换维修-广东特菱节能空调设备有限公司 | 网架支座@球铰支座@钢结构支座@成品支座厂家@万向滑动支座_桥兴工程橡胶有限公司 | 上海软件开发-上海软件公司-软件外包-企业软件定制开发公司-咏熠科技 | 【官网】博莱特空压机,永磁变频空压机,螺杆空压机-欧能优 | 洗地机_全自动洗地机_手推式洗地机【上海滢皓环保】 | 玻璃钢罐_玻璃钢储罐_盐酸罐厂家-河北华盛节能设备有限公司 | 上海三信|ph计|酸度计|电导率仪-艾科仪器 | 阿尔法-MDR2000无转子硫化仪-STM566 SATRA拉力试验机-青岛阿尔法仪器有限公司 | 一氧化氮泄露报警器,二甲苯浓度超标报警器-郑州汇瑞埔电子技术有限公司 | 欧美日韩国产一区二区三区不_久久久久国产精品无码不卡_亚洲欧洲美洲无码精品AV_精品一区美女视频_日韩黄色性爱一级视频_日本五十路人妻斩_国产99视频免费精品是看4_亚洲中文字幕无码一二三四区_国产小萍萍挤奶喷奶水_亚洲另类精品无码在线一区 | 广东恩亿梯电源有限公司【官网】_UPS不间断电源|EPS应急电源|模块化机房|电动汽车充电桩_UPS电源厂家(恩亿梯UPS电源,UPS不间断电源,不间断电源UPS) | 宽带办理,电信宽带,移动宽带,联通宽带,电信宽带办理,移动宽带办理,联通宽带办理 | 宏源科技-房地产售楼系统|线上开盘系统|售楼管理系统|线上开盘软件 | 首页|专注深圳注册公司,代理记账报税,注册商标代理,工商变更,企业400电话等企业一站式服务-慧用心 | 涡轮流量计_LWGY智能气体液体电池供电计量表-金湖凯铭仪表有限公司 | 威海防火彩钢板,威海岩棉复合板,威海彩钢瓦-文登区九龙岩棉复合板厂 | 水平垂直燃烧试验仪-灼热丝试验仪-漏电起痕试验仪-针焰试验仪-塑料材料燃烧检测设备-IP防水试验机 | 山楂片_雪花_迷你山楂片_山楂条饼厂家-青州市丰源食品厂 | UV固化机_UVLED光固化机_UV干燥机生产厂家-上海冠顶公司专业生产UV固化机设备 | 传动滚筒,改向滚筒-淄博建凯机械科技有限公司 | 广州监控安装公司_远程监控_安防弱电工程_无线wifi覆盖_泉威安防科技 | 河南橡胶接头厂家,河南波纹补偿器厂家,河南可曲挠橡胶软连接,河南套筒补偿器厂家-河南正大阀门 | 钣金加工厂家-钣金加工-佛山钣金厂-月汇好 | 档案密集柜_手动密集柜_智能密集柜_内蒙古档案密集柜-盛隆柜业内蒙古密集柜直销中心 | 冻干机(冷冻干燥机)_小型|实验型|食品真空冷冻干燥机-松源 | 箱式破碎机_移动方箱式破碎机/价格/厂家_【华盛铭重工】 | 玉米深加工设备|玉米加工机械|玉米加工设备|玉米深加工机械-河南成立粮油机械有限公司 | 热缩管切管机-超声波切带机-织带切带机-无纺布切布机-深圳市宸兴业科技有限公司 | 工业PH计|工业ph酸度计|在线PH计价格-合肥卓尔仪器仪表有限公司 济南画室培训-美术高考培训-山东艺霖艺术培训画室 | 钢格栅板_钢格板网_格栅板-做专业的热镀锌钢格栅板厂家-安平县迎瑞丝网制造有限公司 | 室内室外厚型|超薄型|非膨胀型钢结构防火涂料_隧道专用防火涂料厂家|电话|价格|批发|施工 | 开平机_纵剪机厂家_开平机生产厂家|诚信互赢-泰安瑞烨精工机械制造有限公司 | 楼梯定制_楼梯设计施工厂家_楼梯扶手安装制作-北京凌步楼梯 |