电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

python自動從arxiv下載paper的示例代碼

瀏覽:2日期:2022-07-03 10:27:01

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2020/02/11 21:44# @Author : dangxusheng# @Email : dangxusheng163@163.com# @File : download_by_href.py’’’自動從arxiv.org 下載文獻’’’import osimport os.path as ospimport requestsfrom lxml import etreefrom pprint import pprintimport reimport timeimport globheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36', 'Host': ’arxiv.org’}HREF_CN = ’http://cn.arxiv.org/pdf/’HREF_SRC = ’http://cn.arxiv.org/pdf/’SAVE_PATH = ’/media/dangxs/E/Paper/download_at_20200730’os.makedirs(SAVE_PATH, exist_ok=True)FAIL_URLS = []FAIL_URLS_TXT = f’{SAVE_PATH}/fail_urls.txt’def download(url, title): pattern = r’[/:*?'’<>|rn]+’ new_title = re.sub(pattern, ' ', title) print(f’new title: {new_title}’) save_filepath = ’%s/%s.pdf’ % (SAVE_PATH, new_title) if osp.exists(save_filepath) and osp.getsize(save_filepath) > 50 * 1024: print(f’this pdf is be existed.’) return True try: with open(save_filepath, ’wb’) as file: # 分字節下載 r = requests.get(url, stream=True, timeout=None) for i in r.iter_content(2048):file.write(i) if osp.getsize(save_filepath) >= 10 * 1024: print(’%s 下載成功.’ % title) return True except Exception as e: print(e) return False# 從arxiv.org 去下載def search(start_size=0, title_keywords=’Facial Expression’): # 訪問地址: https://arxiv.org/find/grp_eess,grp_stat,grp_cs,grp_econ,grp_math/1/ti:+Face/0/1/0/past,2018,2019/0/1?skip=200&query_id=1c582e6c8afc6146&client_host=cn.arxiv.org req_url = ’https://arxiv.org/search/advanced’ req_data = { ’advanced’: 1, ’terms-0-operator’: ’AND’, ’terms-0-term’: title_keywords, ’terms-0-field’: ’title’, ’classification-computer_science’: ’y’, ’classification-physics_archives’: ’all’, ’classification-include_cross_list’: ’include’, ’date-filter_by’: ’date_range’, # date_range | specific_year # ’date-year’: DOWN_YEAR, ’date-year’: ’’, ’date-from_date’: ’2015’, ’date-to_date’: ’2020’, ’date-date_type’: ’announced_date_first’, # submitted_date | submitted_date_first | announced_date_first ’abstracts’: ’show’, ’size’: 50, ’order’: ’-announced_date_first’, ’start’: start_size, } res = requests.get(req_url, params=req_data, headers=headers) html = res.content.decode() html = etree.HTML(html) total_text = html.xpath(’//h1[@class='title is-clearfix']/text()’) total_text = ’’.join(total_text).replace(’n’, ’’).lstrip(’ ’).strip(’ ’) # i.e. : Showing 1?50 of 355 results num = re.findall(’d+’, total_text) # Sorry, your query returned no results if len(num) == 0: return [], 0 total = int(num[-1]) # 查詢總條數 paper_list = html.xpath(’//ol[@class='breathe-horizontal']/li’) info_list = [] for p in paper_list: title = p.xpath(’./p[@class='title is-5 mathjax']//text()’) title = ’’.join(title).replace(’n’, ’’).lstrip(’ ’).strip(’ ’) href = p.xpath(’./div/p/a/@href’)[0] info_list.append({’title’: title, ’href’: href}) return info_list, total# 去指定頁面下載def search_special(): res = requests.get(’https://gitee.com/weberyoung/the-gan-zoo?_from=gitee_search’) html = res.content.decode() html = etree.HTML(html) paper_list = html.xpath(’//div[@class='file_content markdown-body']//li’) info_list = [] for p in paper_list: title = p.xpath(’.//text()’) title = ’’.join(title).replace(’n’, ’’).lstrip(’ ’).strip(’ ’) href = p.xpath(’./a/@href’)[0] info_list.append({’title’: title, ’href’: href}) pprint(info_list) return info_listif __name__ == ’__main__’: page_idx = 0 total = 1000 keywords = ’Facial Action Unit’ while page_idx <= total // 50: paper_list, total = search(page_idx * 50, keywords) print(f’total: {total}’) if total == 0: print(’no found .’) exit(0) for p in paper_list: title = p[’title’] href = HREF_CN + p[’href’].split(’/’)[-1] + ’.pdf’ print(href) if not download(href, title):print(’從國內鏡像下載失敗,從源地址開始下載 >>>>’)# 使用國際URL再下載一次href = HREF_SRC + p[’href’].split(’/’)[-1] + ’.pdf’if not download(href, title): FAIL_URLS.append(p) page_idx += 1 # 下載最后的部分 last_1 = total - page_idx * 50 paper_list, total = search(last_1, keywords) for p in paper_list: title = p[’title’] href = HREF_CN + p[’href’].split(’/’)[-1] + ’.pdf’ if not download(href, title): FAIL_URLS.append(p) time.sleep(1) pprint(FAIL_URLS) with open(FAIL_URLS_TXT, ’a+’) as f: for item in FAIL_URLS: href = item[’href’] title = item[’title’] f.write(href + ’n’) print(’done.’)

以上就是python自動從arxiv下載paper的示例代碼的詳細內容,更多關于python 從arxiv下載paper的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 天津货架厂_穿梭车货架_重型仓储货架_阁楼货架定制-天津钢力仓储货架生产厂家_天津钢力智能仓储装备 | Boden齿轮油泵-ketai齿轮泵-yuken油研-无锡新立液压有限公司 | 江门流水线|江门工作台|江门市伟涛行工业设备有限公司 | 尚为传动-专业高精密蜗轮蜗杆,双导程蜗轮蜗杆,蜗轮蜗杆减速机,蜗杆减速机生产厂家 | 首页_欧瑞传动官方网站--主营变频器、伺服系统、新能源、软起动器、PLC、HMI | 政府园区专业委托招商平台_助力企业选址项目快速落地_东方龙商务集团 | 湖南档案密集架,智能,物证,移动,价格-湖南档案密集架厂家 | 湿地保护| 储气罐,真空罐,缓冲罐,隔膜气压罐厂家批发价格,空压机储气罐规格型号-上海申容压力容器集团有限公司 | 防火门|抗爆门|超大门|医疗门|隔声门-上海加汇门业生产厂家 | MTK核心板|MTK开发板|MTK模块|4G核心板|4G模块|5G核心板|5G模块|安卓核心板|安卓模块|高通核心板-深圳市新移科技有限公司 | 高压直流电源_特种变压器_变压器铁芯-希恩变压器定制厂家 | EPK超声波测厚仪,德国EPK测厚仪维修-上海树信仪器仪表有限公司 | 顺辉瓷砖-大国品牌-中国顺辉| 学考网学历中心| 石膏基自流平砂浆厂家-高强石膏基保温隔声自流平-轻质抹灰石膏粉砂浆批发-永康市汇利建设有限公司 | 桐城新闻网—桐城市融媒体中心主办 | 培训中心-翰香原香酥板栗饼加盟店总部-正宗板栗酥饼技术 | 石膏基自流平砂浆厂家-高强石膏基保温隔声自流平-轻质抹灰石膏粉砂浆批发-永康市汇利建设有限公司 | 工控机,嵌入式主板,工业主板,arm主板,图像采集卡,poe网卡,朗锐智科 | 合肥防火门窗/隔断_合肥防火卷帘门厂家_安徽耐火窗_良万消防设备有限公司 | 下水道疏通_管道疏通_马桶疏通_附近疏通电话- 立刻通 | 江苏全风,高压风机,全风环保风机,全风环形高压风机,防爆高压风机厂家-江苏全风环保科技有限公司(官网) | 北京网站建设首页,做网站选【优站网】,专注北京网站建设,北京网站推广,天津网站建设,天津网站推广,小程序,手机APP的开发。 | 优宝-汽车润滑脂-轴承润滑脂-高温齿轮润滑油脂厂家 | 土壤墒情监测站_土壤墒情监测仪_土壤墒情监测系统_管式土壤墒情站-山东风途物联网 | 手机存放柜,超市储物柜,电子储物柜,自动寄存柜,行李寄存柜,自动存包柜,条码存包柜-上海天琪实业有限公司 | 搬运设备、起重设备、吊装设备—『龙海起重成套设备』 | 拉曼光谱仪_便携式|激光|显微共焦拉曼光谱仪-北京卓立汉光仪器有限公司 | 微量水分测定仪_厂家_卡尔费休微量水分测定仪-淄博库仑 | 专注氟塑料泵_衬氟泵_磁力泵_卧龙泵阀_化工泵专业品牌 - 梭川泵阀 | 智能门锁电机_智能门锁离合器_智能门锁电机厂家-温州劲力智能科技有限公司 | 神马影院-实时更新秒播| 涂层测厚仪_漆膜仪_光学透过率仪_十大创新厂家-果欧电子科技公司 | 昊宇水工|河北昊宇水工机械工程有限公司 | Trimos测长机_测高仪_TESA_mahr,WYLER水平仪,PWB对刀仪-德瑞华测量技术(苏州)有限公司 | 南京种植牙医院【官方挂号】_南京治疗种植牙医院那个好_南京看种植牙哪里好_南京茀莱堡口腔医院 尼龙PA610树脂,尼龙PA612树脂,尼龙PA1010树脂,透明尼龙-谷骐科技【官网】 | 杭州月嫂技术培训服务公司-催乳师培训中心报名费用-产后康复师培训机构-杭州优贝姆健康管理有限公司 | 医学动画公司-制作3d医学动画视频-医疗医学演示动画制作-医学三维动画制作公司 | 南京兰江泵业有限公司-水解酸化池潜水搅拌机-絮凝反应池搅拌机-好氧区潜水推进器 | 众能联合-提供高空车_升降机_吊车_挖机等一站工程设备租赁 |