电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術(shù)文章
文章詳情頁

Python 爬取淘寶商品信息欄目的實現(xiàn)

瀏覽:124日期:2022-06-28 10:42:17
一、相關(guān)知識點

1.1、Selenium

Selenium是一個強大的開源Web功能測試工具系列,可進(jìn)行讀入測試套件、執(zhí)行測試和記錄測試結(jié)果,模擬真實用戶操作,包括瀏覽頁面、點擊鏈接、輸入文字、提交表單、觸發(fā)鼠標(biāo)事件等操作,并且能夠?qū)撁娼Y(jié)果進(jìn)行種種驗證。也就是說,只要在測試用例中把預(yù)期的用戶行為與結(jié)果都描述出來,我們就得到了一個可以自動化運行的功能測試套件。

1.2、ActionChainsActionchains是selenium里面專門處理鼠標(biāo)相關(guān)的操作如:鼠標(biāo)移動,鼠標(biāo)按鈕操作,按鍵和上下文菜單(鼠標(biāo)右鍵)交互。這對于做更復(fù)雜的動作非常有用,比如懸停和拖放。

1.3、time返回當(dāng)前時間的時間戳

1.4、lxmllxml是一個Python庫,使用它可以輕松處理XML和HTML文件,還可以用于web爬取。市面上有很多現(xiàn)成的XML解析器,但是為了獲得更好的結(jié)果,開發(fā)人員有時更愿意編寫自己的XML和HTML解析器。這時lxml庫就派上用場了。這個庫的主要優(yōu)點是易于使用,在解析大型文檔時速度非常快,歸檔的也非常好,并且提供了簡單的轉(zhuǎn)換方法來將數(shù)據(jù)轉(zhuǎn)換為Python數(shù)據(jù)類型,從而使文件操作更容易。

1.5、csvcsv文件格式是一種通用的電子表格和數(shù)據(jù)庫導(dǎo)入導(dǎo)出格式。最近我調(diào)用RPC處理服務(wù)器數(shù)據(jù)時,經(jīng)常需要將數(shù)據(jù)做個存檔便使用了這一方便的格式。

1.6、requestsRequests 庫是一個優(yōu)雅而簡單的 Python HTTP 庫,主要用于發(fā)送和處理 HTTP 請求

二、部分代碼解析

加載Chrome驅(qū)動,動態(tài)解析爬取的網(wǎng)址

#提取公共的爬取信息的api def commonsdk(self,url): browser = webdriver.Chrome(’D:/chromedriver.exe’) try: browser.get(url) except Exception as e: browser.execute_script(’window.stop()’) # 超出時間則不加載 print(e, ’dynamic web load timeout’) return browser;

實現(xiàn)模擬登錄

通過定位淘寶登陸界面的url的表單框,然后輸入自己的用戶名及密碼,再模擬鼠標(biāo)點擊事件,繼而提交表單信息實現(xiàn)用戶登錄。

#模擬登錄 def logon(self,url,a_href_list_next): username = '淘寶賬戶名' password = '密碼' browser1 = self.commonsdk(url) #登錄賬號 browser1.find_element_by_id(’fm-login-id’).send_keys(username) browser1.find_element_by_id(’fm-login-password’).send_keys(password) #模擬用戶點擊登錄 browser1.find_element_by_xpath(’//*[@id='login-form']/div[4]/button’).click() #解析商品信息 self.Buy_information(a_href_list_next,browser1)

爬取側(cè)邊欄目錄1、首先定位到目錄分類欄,鼠標(biāo)光標(biāo)移動到需要選中的那一欄,繼而會出現(xiàn)隱藏的div,(這里需要實現(xiàn)鼠標(biāo)懸停事件)action.move_to_element(li_list).perform()實現(xiàn)了這一功能。2、然后定位自己所需要爬取的側(cè)邊欄的那一行或多行,通過實現(xiàn)鼠標(biāo)懸停事件后獲取其中內(nèi)容。3、獲取其超鏈接進(jìn)入下一界面

Python 爬取淘寶商品信息欄目的實現(xiàn)

#爬取目錄 def List(self,url): browser = self.commonsdk(url) #ActionChains類實現(xiàn)鼠標(biāo)的單擊、雙擊、拖拽等功能 action = ActionChains(browser) li_list = browser.find_elements_by_css_selector(’.service-bd li’)[1] #實現(xiàn)執(zhí)行鼠標(biāo)懸停,便于爬取懸停內(nèi)容 action.move_to_element(li_list).perform() time.sleep(5) #爬取整個目錄的div div_list = browser.find_element_by_css_selector(’.service-fi-links’) #爬取其中的總的名稱 h5_list = div_list.find_elements_by_css_selector(’h5’) #爬取小標(biāo)題的名稱 p_list = div_list.find_elements_by_css_selector(’p’) #獲取a標(biāo)簽 a_href_list = div_list.find_elements_by_css_selector(’a’) #獲取a標(biāo)簽的超鏈接 a_href_list_next = div_list.find_elements_by_css_selector(’a’)[1].get_attribute(’href’) print(li_list.text) for j in range(len(p_list)): if j<len(p_list): print(h5_list[j].text) print(p_list[j].text) for i in range(len(a_href_list)): print(a_href_list[i].get_attribute(’href’)) #獲取登錄框 logon = browser.find_element_by_id(’J_SiteNavBd’) #獲取登錄框的超鏈接 logon_url = logon.find_element_by_css_selector(’a’).get_attribute(’href’) #先關(guān)閉第一個網(wǎng)頁 browser.close() self.logon(logon_url,a_href_list_next)

獲取商品信息

1、這里使用的定位方式是Xpath方式,使用了絕對定位來獲取標(biāo)簽的位置。

#爬取商品信息 def Buy_information(self,url,browser): browser.get(url) div_list = browser.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]’) img = div_list.find_element_by_css_selector(’img’) img_url = 'https:'+img.get_attribute(’data-src’) price = div_list.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]/div[2]/div[1]/div[1]’).text number = div_list.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]/div[2]/div[1]/div[2]’).text shoping_information = div_list.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]/div[2]/div[2]’).text shop = div_list.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]/div[2]/div[3]/div[1]/a’).text adress = div_list.find_element_by_xpath(’//*[@id='mainsrp-itemlist']/div/div/div[1]/div[1]/div[2]/div[3]/div[2]’).text path = self.img_baocun(img_url) data={ ’圖片路徑’:path, ’價格’:price, ’購買人數(shù)’:number, ’商品信息’:shoping_information, ’商家’:shop, ’籍貫’:adress } self.write_dictionary_to_csv(data,’information’)

下載圖片

通過獲取到的圖片的url,然后將圖片下載到指定的文件夾內(nèi)

#下載照片 def img_baocun(self,url): root = '文件夾下載的路徑'//電腦上的絕對路徑 path = root + url.split(’?’)[0].split(’/’)[-1].strip(’’)#獲取jpg的名稱 #判斷是否存在該路徑,不存在則創(chuàng)建 if not os.path.exists(root): os.mkdir(root) #判斷是否存在該圖片,存在則不下載 if not os.path.exists(path): r = requests.get(url) r.raise_for_status() with open(path,’wb’) as f: f.write(r.content) return path

將需要爬取的信息寫入到csv文件中,便于查看1、商品信息以字典的形式寫入csv文件中方便查看。

#將解析得到的內(nèi)容(字典格式)逐行寫入csv文件 def write_dictionary_to_csv(self,dict,filename): #格式化文件名 file_name=’{}.csv’.format(filename) with open(file_name, ’a’,encoding=’utf-8’) as f: file_exists = os.path.isfile(filename) #delimiter(定界符) w =csv.DictWriter(f, dict.keys(),delimiter=’,’, quotechar=’'’, lineterminator=’n’,quoting=csv.QUOTE_ALL, skipinitialspace=True) if not file_exists : w.writeheader() w.writerow(dict) print(’當(dāng)前行寫入csv成功!’)三、程序思路

1、首先定位到側(cè)邊欄的位置,然后使用action.move_to_element(li_list).perform()的方法實現(xiàn)鼠標(biāo)的動態(tài)懸停,讓隱藏的div顯示出來,再獲取其中的信息。2、然后再實現(xiàn)模擬登錄的功能,登錄賬號,獲取其中的商品信息(由于淘寶的反扒機制,多次登錄會讓用戶掃碼登錄,此功能暫未實現(xiàn))3、商品信息的獲取使用Xpath的絕對定位方式來獲取。

Xpath的使用方式: 右鍵需要定位的標(biāo)簽->選中Copy選項->Copy Xpath

四、發(fā)展空間

1、解決淘寶反扒機制的問題。傳送門,解決問題2、文件的寫入換用其他方式。

到此這篇關(guān)于Python 爬取淘寶商品信息欄目的實現(xiàn)的文章就介紹到這了,更多相關(guān)Python 爬取淘寶商品信息內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: 淘寶 Python
相關(guān)文章:
主站蜘蛛池模板: 深圳VI设计-画册设计-LOGO设计-包装设计-品牌策划公司-[智睿画册设计公司] | 河南橡胶接头厂家,河南波纹补偿器厂家,河南可曲挠橡胶软连接,河南套筒补偿器厂家-河南正大阀门 | 超细粉碎机|超微气流磨|气流分级机|粉体改性设备|超微粉碎设备-山东埃尔派粉碎机厂家 | 谷歌关键词优化-外贸网站优化-Google SEO小语种推广-思亿欧外贸快车 | 数码管_LED贴片灯_LED数码管厂家-无锡市冠卓电子科技有限公司 | 上海平衡机-单面卧式动平衡机-万向节动平衡机-圈带动平衡机厂家-上海申岢动平衡机制造有限公司 | 喷播机厂家_二手喷播机租赁_水泥浆洒布机-河南青山绿水机电设备有限公司 | 企业彩铃制作_移动、联通、电信集团彩铃上传开通_彩铃定制_商务彩铃管理平台-集团彩铃网 | 武汉创亿电气设备有限公司_电力检测设备生产厂家 | 六维力传感器_六分量力传感器_模腔压力传感器-南京数智微传感科技有限公司 | 碳化硅,氮化硅,冰晶石,绢云母,氟化铝,白刚玉,棕刚玉,石墨,铝粉,铁粉,金属硅粉,金属铝粉,氧化铝粉,硅微粉,蓝晶石,红柱石,莫来石,粉煤灰,三聚磷酸钠,六偏磷酸钠,硫酸镁-皓泉新材料 | 万濠影像仪(万濠投影仪)百科-苏州林泽仪器 | 便携式表面粗糙度仪-彩屏硬度计-分体式粗糙度仪-北京凯达科仪科技有限公司 | 红外光谱仪维修_二手红外光谱仪_红外压片机_红外附件-天津博精仪器 | 浙江自考_浙江自学考试网 | 网站优化公司_SEO优化_北京关键词百度快速排名-智恒博网络 | 精雕机-火花机-精雕机 cnc-高速精雕机-电火花机-广东鼎拓机械科技有限公司 | 深圳市源和塑胶电子有限公司-首页 | 讲师宝经纪-专业培训机构师资供应商_培训机构找讲师、培训师、讲师经纪就上讲师宝经纪 | 泵阀展|阀门展|水泵展|流体机械展 -2025上海国际泵管阀展览会flowtech china | 塑钢件_塑钢门窗配件_塑钢配件厂家-文安县启泰金属制品有限公司 深圳南财多媒体有限公司介绍 | 飞利浦LED体育场灯具-吸顶式油站灯-飞利浦LED罩棚灯-佛山嘉耀照明有限公司 | 步进_伺服_行星减速机,微型直流电机,大功率直流电机-淄博冠意传动机械 | 欧洲MV日韩MV国产_人妻无码一区二区三区免费_少妇被 到高潮喷出白浆av_精品少妇自慰到喷水AV网站 | 小区健身器材_户外健身器材_室外健身器材_公园健身路径-沧州浩然体育器材有限公司 | 空心明胶胶囊|植物胶囊|清真胶囊|浙江绿键胶囊有限公司欢迎您! | 深圳成考网-深圳成人高考报名网 深圳工程师职称评定条件及流程_深圳职称评审_职称评审-职称网 | 除尘布袋_液体过滤袋_针刺毡滤料-杭州辉龙过滤技术有限公司 | 留学生辅导网-在线课程论文辅导-留学生挂科申诉机构 | 高压无油空压机_无油水润滑空压机_水润滑无油螺杆空压机_无油空压机厂家-科普柯超滤(广东)节能科技有限公司 | 浙江皓格药业有限公司| 英语词典_成语词典_日语词典_法语词典_在线词典网 | 广州网站建设_小程序开发_番禺网站建设_佛山网站建设_粤联网络 | 美名宝起名网-在线宝宝、公司、起名平台 | 深圳宣传片制作_产品视频制作_深圳3D动画制作公司_深圳短视频拍摄-深圳市西典映画传媒有限公司 | 防火卷帘门价格-聊城一维工贸特级防火卷帘门厂家▲ | 欧美日韩国产一区二区三区不_久久久久国产精品无码不卡_亚洲欧洲美洲无码精品AV_精品一区美女视频_日韩黄色性爱一级视频_日本五十路人妻斩_国产99视频免费精品是看4_亚洲中文字幕无码一二三四区_国产小萍萍挤奶喷奶水_亚洲另类精品无码在线一区 | 青岛球场围网,青岛车间隔离网,青岛机器人围栏,青岛水源地围网,青岛围网,青岛隔离栅-青岛晟腾金属制品有限公司 | 高博医疗集团上海阿特蒙医院 | 纯化水设备-EDI-制药-实验室-二级反渗透-高纯水|超纯水设备 | 薪动-人力资源公司-灵活用工薪资代发-费用结算-残保金优化-北京秒付科技有限公司 |