电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Python使用Selenium自動進行百度搜索的實現

瀏覽:122日期:2022-06-14 15:13:46
目錄安裝 Selenium寫代碼點位網頁元素

我們今天介紹一個非常適合新手的python自動化小項目,項目雖小,但是五臟俱全。它是一個自動化操作網頁瀏覽器的小應用:打開瀏覽器,進入百度網頁,搜索關鍵詞,最后把搜索結果保存到一個文件里。這個例子非常適合新手學習Python網絡自動化,不僅能夠了解如何使用Selenium,而且還能知道一些超級好用的小工具。

當然有人把操作網頁,然后把網頁的關鍵內容保存下來的應用一律稱作網絡爬蟲,好吧,如果你想這么爬取內容,隨你。但是,我更愿意稱它為網絡機器人。

我今天介紹的項目使用Selenium,Selenium 是支持 web 瀏覽器自動化的一系列工具和庫的綜合項目。Selenium 的核心是 WebDriver,這是一個編寫指令集的接口,可以在許多瀏覽器中互換運行。

閑言少敘,硬貨安排。

安裝 Selenium

可以使用 pip 安裝 Python 的 Selenium 庫:pip install selenium

(可選項:要執行項目并控制瀏覽器,需要安裝特定于瀏覽器的 WebDriver 二進制文件。

下載 WebDriver 二進制文件 并放入 系統 PATH 環境變量 中.)

由于本地瀏覽器版本升級,引起的版本不一致問題,和系統PATH環境變量的設置比較繁瑣,所以我使用webdriver_manager,

安裝 Install manager:

pip install webdriver-manager寫代碼

引入模塊:

from selenium import webdriverfrom webdriver_manager.chrome import ChromeDriverManagerfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.keys import Keys

首先我們定義一個類Search_Baidu, 它主要用于初始化;定義自動化步驟的方法;結束關閉瀏覽器。

class Search_Baidu:def __init__(self):def search(self, keyword):def tear_down(self):

接下來我們分別介紹每個方法的實現過程。

def __init__(self): #類構造函數,用于初始化selenium的webdriverurl = ’https://www.baidu.com/’ #這里定義訪問的網絡地址self.url = urloptions = webdriver.ChromeOptions()options.add_experimental_option('prefs', {'profile.managed_default_content_settings.images': 2}) # 不加載圖片,加快訪問速度options.add_experimental_option(’excludeSwitches’, [’enable-automation’]) # 此步驟很重要,設置為開發者模式,防止被各大網站識別出來使用了Selenium# 這里使用chrome瀏覽器,而且使用我們剛才安裝的webdriver_manager的chrome driver,并賦值上面的瀏覽器設置options變量self.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)self.wait = WebDriverWait(self.browser, 10) #超時時長為10s,由于自動化需要等待網頁控件的加載,所以這里設置一個默認的等待超時,時長為10秒 def tear_down(self):self.browser.close() #最后,關閉瀏覽器

接下來是重頭戲,寫我們操作瀏覽器的步驟,打開瀏覽器,進入百度網頁,輸入搜索關鍵字:Selenium,等待搜索結果,把搜索結果的題目和網址保存到文件里。

def search(self, keyword): # 打開百度網頁 self.browser.get(self.url) # 等待搜索框出現,最多等待10秒,否則報超時錯誤 search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, ’//*[@id='kw']’))) # 在搜索框輸入搜索的關鍵字 search_input.send_keys(keyword) # 回車 search_input.send_keys(Keys.ENTER) # 等待10秒鐘 self.browser.implicitly_wait(10) # 找到所有的搜索結果 results = self.browser.find_elements_by_css_selector('.t a , em , .c-title-text') # 遍歷所有的搜索結果 with open('search_result.txt','w') as file: for result in results: if result.get_attribute('href'):print(result.get_attribute('text').strip())# 搜索結果的標題title = result.get_attribute('text').strip()# 搜索結果的網址link = result.get_attribute('href')# 寫入文件file.write(f'Title: {title}, link is: {link} n')點位網頁元素

這里頭有個關鍵點,就是如何點位網頁元素:

比如:

search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, ’//*[@id='kw']’)))

還有:

self.browser.find_elements_by_css_selector('.t a , em , .c-title-text')

打個比方,快遞員通過地址找到你家,給你送快遞,這里的XPATH和CSS Selector就是網頁元素的地址,那么如何得到呢?第一個就是Chrome自帶的開發者工具,可以快捷鍵F12,也可以自己在下圖中找到:

Python使用Selenium自動進行百度搜索的實現

然后在百度搜索框,右鍵:

Python使用Selenium自動進行百度搜索的實現

找到輸入框的HTML元素,

Python使用Selenium自動進行百度搜索的實現

在HTML元素右鍵,拷貝XPath地址。

Python使用Selenium自動進行百度搜索的實現

這是比較簡單的定位網頁元素的方法。接下來我們定位搜索結果元素的時候,就遇到了麻煩,如下圖:

Python使用Selenium自動進行百度搜索的實現

我們不能單獨的定位每個元素,而是要找到規律,一次把所有的搜索結果找到,然后返回一個list,我們好遍歷這個list,這個怎么實現呢?

接下來,我們請出一大神器:SelectorGadget

Python使用Selenium自動進行百度搜索的實現

SelectorGadget是一個CSS Selector生成器,大家可以在他的官方文檔找到具體的使用說明,我這里簡單介紹一下:首先啟動SelectorGadget,點擊一下圖標

Python使用Selenium自動進行百度搜索的實現

瀏覽器會出現下面的框框:

Python使用Selenium自動進行百度搜索的實現

然后我們在網頁用鼠標左鍵,點擊我們要定位的元素

Python使用Selenium自動進行百度搜索的實現

然后頁面會變成下面的樣子:

Python使用Selenium自動進行百度搜索的實現

所有黃色的部分說明都被選擇了,如果我們不想要的元素,右鍵點擊,使它變為紅色,說明它被去掉了。如果沒有被選擇我們又需要的元素,我們左鍵選擇它,使它變為綠色。最后我們希望選擇的頁面元素都變成了綠色或者黃色,如下圖:

Python使用Selenium自動進行百度搜索的實現

我們就可以拷貝框框里的內容作為CSS Selector了。

Python使用Selenium自動進行百度搜索的實現

通過CSS Selector找到所有的搜索結果。

results = self.browser.find_elements_by_css_selector('.t a , em , .c-title-text')

到此,我們就實現了這么個簡單的小應用了,其實selenium就是幫助我們自動操作網頁元素,所以我們定位網頁元素就是重中之重,希望本文給你帶來一點幫助。

下面我附上代碼:

from datetime import timefrom selenium import webdriverfrom webdriver_manager.chrome import ChromeDriverManagerfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.keys import Keysclass Search_Baidu: def __init__(self):url = ’https://www.baidu.com/’self.url = urloptions = webdriver.ChromeOptions()options.add_experimental_option('prefs', {'profile.managed_default_content_settings.images': 2}) # 不加載圖片,加快訪問速度options.add_experimental_option(’excludeSwitches’, [’enable-automation’]) # 此步驟很重要,設置為開發者模式,防止被各大網站識別出來使用了Seleniumself.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)self.wait = WebDriverWait(self.browser, 10) #超時時長為10s def search(self, keyword):# 打開百度網頁self.browser.get(self.url)# 等待搜索框出現,最多等待10秒,否則報超時錯誤search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, ’//*[@id='kw']’)))# 在搜索框輸入搜索的關鍵字search_input.send_keys(keyword)# 回車search_input.send_keys(Keys.ENTER)# 等待10秒鐘self.browser.implicitly_wait(10)# 找到所有的搜索結果results = self.browser.find_elements_by_css_selector('.t a , em , .c-title-text')# 遍歷所有的搜索結果with open('search_result.txt','w') as file:for result in results:if result.get_attribute('href'): print(result.get_attribute('text').strip()) # 搜索結果的標題 title = result.get_attribute('text').strip() # 搜索結果的網址 link = result.get_attribute('href') # 寫入文件 file.write(f'Title: {title}, link is: {link} n') def tear_down(self):self.browser.close()if __name__ == '__main__': search = Search_Baidu() search.search('selenium') search.tear_down()

到此這篇關于Python使用Selenium自動進行百度搜索的實現的文章就介紹到這了,更多相關Python Selenium自動百度搜索內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

相關文章:
主站蜘蛛池模板: 贝壳粉涂料-内墙腻子-外墙腻子-山东巨野七彩贝壳漆业中心 | 电池高低温试验箱-气态冲击箱-双层电池防爆箱|简户百科 | 超声波清洗机_超声波清洗机设备_超声波清洗机厂家_鼎泰恒胜 | 通风天窗,通风气楼,屋顶通风天窗,屋顶通风天窗公司 | 台式低速离心机-脱泡离心机-菌种摇床-常州市万丰仪器制造有限公司 | 高铝砖-高铝耐火球-高铝耐火砖生产厂家-价格【荣盛耐材】 | 气体热式流量计-定量控制流量计(空气流量计厂家)-湖北南控仪表科技有限公司 | 不锈钢法兰-碳钢法兰-法兰盘生产加工厂家-[鼎捷峰]-不锈钢法兰-碳钢法兰-法兰盘生产加工厂家-[鼎捷峰] | 物和码官网,物和码,免费一物一码数字化营销SaaS平台 | 对夹式止回阀_对夹式蝶形止回阀_对夹式软密封止回阀_超薄型止回阀_不锈钢底阀-温州上炬阀门科技有限公司 | 实验室pH计|电导率仪|溶解氧测定仪|离子浓度计|多参数水质分析仪|pH电极-上海般特仪器有限公司 | 机械立体车库租赁_立体停车设备出租_智能停车场厂家_春华起重 | 营养师网,营养师考试时间,报名入口—网站首页 | 地磅-地秤-江阴/无锡地磅-江阴天亿计量设备有限公司_ | 武汉天安盾电子设备有限公司 - 安盾安检,武汉安检门,武汉安检机,武汉金属探测器,武汉测温安检门,武汉X光行李安检机,武汉防爆罐,武汉车底安全检查,武汉液体探测仪,武汉安检防爆设备 | 螺钉式热电偶_便携式温度传感器_压簧式热电偶|无锡联泰仪表有限公司|首页 | 皮带式输送机械|链板式输送机|不锈钢输送机|网带输送机械设备——青岛鸿儒机械有限公司 | 深圳市八百通智能技术有限公司官方网站 | 等离子空气净化器_医用空气消毒机_空气净化消毒机_中央家用新风系统厂家_利安达官网 | 海南在线 海南一家| 智慧农业|农业物联网|现代农业物联网-托普云农物联网官方网站 | Safety light curtain|Belt Sway Switches|Pull Rope Switch|ultrasonic flaw detector-Shandong Zhuoxin Machinery Co., Ltd | 校园文化空间设计-数字化|中医文化空间设计-党建|法治廉政主题文化空间施工-山东锐尚文化传播公司 | 机床主轴维修|刀塔维修|C轴维修-常州翔高精密机械有限公司 | 防勒索软件_数据防泄密_Trellix(原McAfee)核心代理商_Trellix(原Fireeye)售后-广州文智信息科技有限公司 | 温室大棚建设|水肥一体化|物联网系统 | 凝胶成像仪,化学发光凝胶成像系统,凝胶成像分析系统-上海培清科技有限公司 | 深圳离婚律师咨询「在线免费」华荣深圳婚姻律师事务所专办离婚纠纷案件 | 砂石生产线_石料生产线设备_制砂生产线设备价格_生产厂家-河南中誉鼎力智能装备有限公司 | 滑石粉,滑石粉厂家,超细滑石粉-莱州圣凯滑石有限公司 | Boden齿轮油泵-ketai齿轮泵-yuken油研-无锡新立液压有限公司 | 假肢-假肢价格-假肢厂家-河南假肢-郑州市力康假肢矫形器有限公司 | 可程式恒温恒湿试验箱|恒温恒湿箱|恒温恒湿试验箱|恒温恒湿老化试验箱|高低温试验箱价格报价-广东德瑞检测设备有限公司 | 步进驱动器「一体化」步进电机品牌厂家-一体式步进驱动 | 「钾冰晶石」氟铝酸钾_冰晶石_氟铝酸钠「价格用途」-亚铝氟化物厂家 | 工控机,嵌入式主板,工业主板,arm主板,图像采集卡,poe网卡,朗锐智科 | 电采暖锅炉_超低温空气源热泵_空气源热水器-鑫鲁禹电锅炉空气能热泵厂家 | 水质传感器_水质监测站_雨量监测站_水文监测站-山东水境传感科技有限公司 | 电销卡 防封电销卡 不封号电销卡 电话销售卡 白名单电销卡 电销系统 外呼系统 | 智能门锁电机_智能门锁离合器_智能门锁电机厂家-温州劲力智能科技有限公司 | 找培训机构_找学习课程_励普教育 |