电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Python基于百度AI實現抓取表情包

瀏覽:126日期:2022-06-14 15:30:11
目錄一、百度 AI 開放平臺的 Key 申請方法二、抓取貼吧表情包三、使用 Baidu-aip

本文先抓取網絡上的表情圖像,然后利用百度 AI 識別表情包上的說明文字,并利用表情文字重命名文件,這樣當發表情包時,不需要逐個打開查找,直接根據文件名選擇表情并發送。

一、百度 AI 開放平臺的 Key 申請方法

本例使用了百度 AI 的 API 接口實現文字識別。因此需要先申請對應的 API 使用權限,具體步驟如下:

在網頁瀏覽器(比如 Chrome 或者火狐) 的地址欄中輸入 ai.baidu.com,進入到百度云 AI 的官網,在該頁面中單擊右上角的 控制臺 按鈕。

Python基于百度AI實現抓取表情包

進入到百度云 AI 官網的登錄頁面,輸入百度賬號和密碼,如果沒有,可以單擊 立即注冊 超鏈接進行注冊申請。

登錄成功后,進入到百度云 AI 官網的控制臺頁面,單擊左側導航的 產品服務,展開列表,在列表的最右側下方看到有 人工智能 的分類,然后選擇 圖像識別,或者直接選擇 文字識別,如下圖所示。

Python基于百度AI實現抓取表情包

進入圖像識別一概覽 頁面,要使用百度云 AI 的 API,首先需要申請權限,申請權限之前需要先創建自己的應用,因此單擊 創建應用按鈕,如下圖所示。

Python基于百度AI實現抓取表情包

進入到 創建應用 頁面,該頁面中需要輸入應用的名稱,選擇應用類型,并選擇接口,注意:這里的接口可以多選擇一些,把后期可能用到的接口全部選擇上,這樣,在開發其他實例時,就可以直接使用了;選擇完接口后,選擇文字識別包名,這里選擇 不需要,輸入應用描述,單擊 立即創建 按鈕,如下圖所示。

Python基于百度AI實現抓取表情包

Python基于百度AI實現抓取表情包

Python基于百度AI實現抓取表情包

創建完成后,單擊 返回應用列表 按鈕,頁面跳轉到應用列表頁面,在該頁面中即可查看創建的應用,以及百度云自動為您分配的 AppID,API Key,Secret Key,這些值根據應用的不同而不同,因此一定要保存好,以便開發時使用。

Python基于百度AI實現抓取表情包

二、抓取貼吧表情包

本例在百度貼吧中找到了一些自制的表情包:https://tieba.baidu.com/p/5522091060現在想把圖片都爬下來,具體操作步驟如下:

Network 抓包看下返回的數據是否和 Element 一致,即是否包含想要的數據,而不是通過 JS 黑魔法進行加載的。復制下第一個圖的圖片鏈接,到 Network 選項卡里的 Response 里查找一下。

Python基于百度AI實現抓取表情包

在 Network 抓包中沒有發現 Ajax 動態加載數據的蹤跡。

點擊第二頁,抓包發現了 Ajax 加載的痕跡。

Python基于百度AI實現抓取表情包

以第一個圖的 url 搜下,同樣可以找到。

三個參數猜測 pn 為 page_number,即頁數,postman 或者自己寫代碼模擬請求,記得塞入 Host 和 X-Requested-With,驗證 pn=1 是否為第一頁數據,驗證通過,即所有頁面數據都可以通過這個接口拿到。

先加載拿到末頁是第幾頁,然后走一波循環遍歷即可解析數據獲得圖片 url,寫入文件,使用多個線程進行下載,詳細代碼如下。

# 抓取百度貼吧某個帖子里的所有圖片import requestsimport timeimport threadingimport queuefrom bs4 import BeautifulSoupimport chardetimport ostiezi_url = 'https://tieba.baidu.com/p/5522091060'headers = { ’Host’: ’tieba.baidu.com’, ’User-Agent’: ’User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KH’ ’TML, like Gecko) Chrome/90.0.4430.212 Safari/537.36’,}pic_save_dir = ’tiezi_pic/’if not os.path.exists(pic_save_dir): # 判斷文件夾是否存在,不存在就創建 os.makedirs(pic_save_dir)pic_urls_file = ’tiezi_pic_urls.txt’download_q = queue.Queue() # 下載隊列# 獲得頁數def get_page_count(): try:resp = requests.get(tiezi_url, headers=headers, timeout=5)if resp is not None: resp.encoding = chardet.detect(resp.content)[’encoding’] html = resp.text soup = BeautifulSoup(html, ’lxml’) a_s = soup.find('ul', attrs={’class’: ’l_posts_num’}).findAll('a') for a in a_s:if a.get_text() == ’尾頁’: return a[’href’].split(’=’)[1] except Exception as e:print(str(e))# 下載線程class PicSpider(threading.Thread): def __init__(self, t_name, func):self.func = functhreading.Thread.__init__(self, name=t_name) def run(self):self.func()# 獲得每頁里的所有圖片URLdef get_pics(count): params = {’pn’: count,’ajax’: ’1’,’t’: int(time.time()) } try:resp = requests.get(tiezi_url, headers=headers, timeout=5, params=params)if resp is not None: resp.encoding = chardet.detect(resp.content)[’encoding’] html = resp.text soup = BeautifulSoup(html, ’lxml’) imgs = soup.findAll(’img’, attrs={’class’: ’BDE_Image’}) for img in imgs:print(img[’src’])with open(pic_urls_file, ’a’) as fout: fout.write(img[’src’]) fout.write(’n’) return None except Exception:pass# 下載線程調用的方法def down_pics(): global download_q while not download_q.empty():data = download_q.get()download_pic(data)download_q.task_done()# 下載調用的方法def download_pic(img_url): try:resp = requests.get(img_url, headers=headers, timeout=10)if resp.status_code == 200: print('下載圖片:' + img_url) pic_name = img_url.split('/')[-1][0:-1] with open(pic_save_dir + pic_name, 'wb+') as f:f.write(resp.content) except Exception as e:print(e)if __name__ == ’__main__’: print('檢索判斷鏈接文件是否存在:') if not os.path.exists(pic_urls_file):print('不存在,開始解析帖子...')page_count = get_page_count()if page_count is not None: headers[’X-Requested-With’] = ’XMLHttpRequest’ for page in range(1, int(page_count) + 1):get_pics(page)print('鏈接已解析完畢!')headers.pop(’X-Requested-With’) else:print('存在') print('開始下載圖片~~~~') headers[’Host’] = ’imgsa.baidu.com’ fo = open(pic_urls_file, 'r') pic_list = fo.readlines() threads = [] for pic in pic_list:download_q.put(pic) for i in range(0, len(pic_list)):t = PicSpider(t_name=’線程’ + str(i), func=down_pics)t.daemon = Truet.start()threads.append(t) download_q.join() for t in threads:t.join() print('圖片下載完畢')

運行結果:

Python基于百度AI實現抓取表情包

下面通過 OCR 文字識別技術,直接把表情里的文字提出來,然后來命名圖片,這樣就可以直接文件搜索表情關鍵字,可以快速找到需要的表情圖片。使用谷歌的 OCR 文字識別引擎:Tesseract,對于此類大圖片小文字,不太適合,識別率太低,甚至無法識別,這時使用百度云 OCR 比較合適,它能夠自動定位到圖片中具體位置,并找出圖片中所有的文字。

三、使用 Baidu-aip

申請百度 AI 的應用 key 之后,就可以在本地系統中安裝 Baidu-aip,代碼如下:

pip install baidu-aip

先識別一張圖片,看看效果如何:

from aip import AipOcr# 新建一個AipOcr對象config = { ’appId’: ’填寫自己的appId’, ’apiKey’: ’填寫自己的apiKey’, ’secretKey’: ’填寫自己的secretKey’}client = AipOcr(**config)# 識別圖片里的文字def img_to_str(image_path): # 讀取圖片 with open(image_path, ’rb’) as fp:image = fp.read()# 調用通用文字識別, 圖片參數為本地圖片 result = client.basicGeneral(image) # 返回拼接結果 if ’words_result’ in result:return ’n’.join([w[’words’] for w in result[’words_result’]])if __name__ == ’__main__’: print(img_to_str(’tiezi_pic/5c0ddb1e4134970aebd593e29ecad1c8a5865dbd.jpg’))

運行程序,結果如下圖所示:

Python基于百度AI實現抓取表情包

百度 AI 返回的是一個 JSON 格式數據,如下所示。返回一個字典對象,包含 log_id、words_result_num、words_result 三個鍵,其中 words_result_num 表示識別的文本行數,words_result 是一個列表,每個列表項目記錄一條識別的文本,每個項目返回一個字典對象,包含 words 鍵,words 表示識別的文本。

{’words_result’: [{’words’: ’o。o’}, {’words’: ’6226-16:59’}, {’words’: ’絕望jpg’}], ’log_id’: 1393611954748129280, ’words_result_num’: 3}o。o6226-16:59絕望jpg

由于每個圖片中可能包含很多文字信息,如水印的日期文字,以及個別特殊的文字符號被誤解析,我們需要提出的是漢字或字母信息,同時可能會包含多條漢字信息,本例選擇漢字或字母最長的一條來命名文件。完整的示例代碼如下:

# 識別圖片文字,批量命名圖片文字import osfrom aip import AipOcrimport reimport datetime# 新建一個AipOcr對象config = { ’appId’: ’填寫自己的appId’, ’apiKey’: ’填寫自己的apiKey’, ’secretKey’: ’填寫自己的secretKey’}client = AipOcr(**config)pic_dir = r'tiezi_pic/'# 讀取圖片def get_file_content(file_path): with open(file_path, ’rb’) as fp:return fp.read()# 識別圖片里的文字def img_to_str(image_path): image = get_file_content(image_path) # 調用通用文字識別, 圖片參數為本地圖片 result = client.basicGeneral(image) # 結果拼接返回 words_list = [] if ’words_result’ in result:if len(result[’words_result’]) > 0: for w in result[’words_result’]:words_list.append(w[’words’]) file_name = get_longest_str(words_list) print(file_name) file_dir_name = pic_dir + str(file_name).replace('/', '') + ’.jpg’ if os.path.exists(file_dir_name): # 處理文件重名問題sec = datetime.datetime.now().microsecond # 獲取當前毫秒時值file_dir_name = pic_dir + str(file_name).replace('/', '') + str(sec) + ’.jpg’ try:os.rename(image_path, file_dir_name) except Exception:print(' 重命名失?。?, image_path, ' => ', file_name)# 獲取字符串列表中最長的字符串def get_longest_str(str_list): pat = re.compile(r’[u4e00-u9fa5A-Za-z]+’) str = max(str_list, key=hanzi_len) result = pat.findall(str) return ’’.join(result)def hanzi_len(item): pat = re.compile(r’[u4e00-u9fa5]+’) sum = 0 for i in item:if pat.search(i): sum += 1 return sum# 遍歷某個文件夾下所有圖片def query_picture(dir_path): pic_path_list = [] for filename in os.listdir(dir_path):pic_path_list.append(dir_path + filename) return pic_path_listif __name__ == ’__main__’: pic_list = query_picture(pic_dir) if len(pic_list) > 0:for i in pic_list: img_to_str(i)

運行程序,結果如下圖所示:

Python基于百度AI實現抓取表情包

到此這篇關于Python基于百度AI實現抓取表情包的文章就介紹到這了,更多相關Python 抓取表情包內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

相關文章:
主站蜘蛛池模板: 天一线缆邯郸有限公司_煤矿用电缆厂家_矿用光缆厂家_矿用控制电缆_矿用通信电缆-天一线缆邯郸有限公司 | 飞象网 - 通信人每天必上的网站 全球化工设备网—化工设备,化工机械,制药设备,环保设备的专业网络市场。 | 嘉兴恒升声级计-湖南衡仪声级计-杭州爱华多功能声级计-上海邦沃仪器设备有限公司 | 体视显微镜_荧光生物显微镜_显微镜报价-微仪光电生命科学显微镜有限公司 | 邢台人才网_邢台招聘网_邢台123招聘【智达人才网】 | 物联网卡_物联网卡购买平台_移动物联网卡办理_移动联通电信流量卡通信模组采购平台? | 采暖炉_取暖炉_生物质颗粒锅炉_颗粒壁炉_厂家加盟批发_烟台蓝澳采暖设备有限公司 | 地埋式垃圾站厂家【佳星环保】小区压缩垃圾中转站转运站 | 全自动真空上料机_粉末真空上料机_气动真空上料机-南京奥威环保科技设备有限公司 | 北京模型公司-军事模型-工业模型制作-北京百艺模型沙盘公司 | 比亚迪叉车-比亚迪电动叉车堆垛车托盘车仓储叉车价格多少钱报价 磁力去毛刺机_去毛刺磁力抛光机_磁力光饰机_磁力滚抛机_精密金属零件去毛刺机厂家-冠古科技 | 氧化铁红厂家-淄博宗昂化工| 知名电动蝶阀,电动球阀,气动蝶阀,气动球阀生产厂家|价格透明-【固菲阀门官网】 | 成都装修公司-成都装修设计公司推荐-成都朗煜装饰公司 | 考试试题_试卷及答案_诗词单词成语 - 优易学 | 工业洗衣机_工业洗涤设备_上海力净工业洗衣机厂家-洗涤设备首页 bkzzy在职研究生网 - 在职研究生招生信息咨询平台 | 在线浊度仪_悬浮物污泥浓度计_超声波泥位计_污泥界面仪_泥水界面仪-无锡蓝拓仪表科技有限公司 | SPC工作站-连杆综合检具-表盘气动量仪-内孔缺陷检测仪-杭州朗多检测仪器有限公司 | 上海公司注册-代理记账-招投标审计-上海昆仑扇财税咨询有限公司 上海冠顶工业设备有限公司-隧道炉,烘箱,UV固化机,涂装设备,高温炉,工业机器人生产厂家 | 大米加工设备|大米加工机械|碾米成套设备|大米加工成套设备-河南成立粮油机械有限公司 | 环保袋,无纺布袋,无纺布打孔袋,保温袋,环保袋定制,环保袋厂家,环雅包装-十七年环保袋定制厂家 | 山东PE给水管厂家,山东双壁波纹管,山东钢带增强波纹管,山东PE穿线管,山东PE农田灌溉管,山东MPP电力保护套管-山东德诺塑业有限公司 | 稳尚教育加盟-打造高考志愿填报平台_新高考志愿填报加盟_学业生涯规划加盟 | 冷却塔降噪隔音_冷却塔噪声治理_冷却塔噪音处理厂家-广东康明冷却塔降噪厂家 | 档案密集架_电动密集架_移动密集架_辽宁档案密集架-盛隆柜业厂家现货批发销售价格公道 | 大流量卧式砂磨机_强力分散机_双行星双动力混合机_同心双轴搅拌机-莱州市龙跃化工机械有限公司 | 书法培训-高考书法艺考培训班-山东艺霖书法培训凭实力挺进央美 | 并网柜,汇流箱,电控设备,中高低压开关柜,电气电力成套设备,PLC控制设备订制厂家,江苏昌伟业新能源科技有限公司 | 深圳3D打印服务-3D打印加工-手板模型加工厂-悟空打印坊 | 发电机价格|发电机组价格|柴油发电机价格|柴油发电机组价格网 | 广西教师资格网-广西教师资格证考试网 | b2b网站大全,b2b网站排名,找b2b网站就上地球网 | 涡轮流量计_LWGY智能气体液体电池供电计量表-金湖凯铭仪表有限公司 | 废水处理-废气处理-工业废水处理-工业废气处理工程-深圳丰绿环保废气处理公司 | 杭州中策电线|中策电缆|中策电线|杭州中策电缆|杭州中策电缆永通集团有限公司 | 压力控制器,差压控制器,温度控制器,防爆压力控制器,防爆温度控制器,防爆差压控制器-常州天利智能控制股份有限公司 | 厂房出租-厂房规划-食品技术-厂房设计-厂房装修-建筑施工-设备供应-设备求购-龙爪豆食品行业平台 | 悬浮拼装地板_篮球场木地板翻新_运动木地板价格-上海越禾运动地板厂家 | 杭州代理记账费用-公司注销需要多久-公司变更监事_杭州福道财务管理咨询有限公司 | 上海物流公司,上海货运公司,上海物流专线-优骐物流公司 | 海外整合营销-独立站营销-社交媒体运营_广州甲壳虫跨境网络服务 焊管生产线_焊管机组_轧辊模具_焊管设备_焊管设备厂家_石家庄翔昱机械 |