电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

用python寫爬蟲簡單嗎

瀏覽:5日期:2022-07-16 09:06:21

所謂網絡爬蟲,通俗的講,就是通過向我們需要的URL發出http請求,獲取該URL對應的http報文主體內容,之后提取該報文主體中我們所需要的信息。

下面是一個簡單的爬蟲程序

http基本知識

當我們通過瀏覽器訪問指定的URL時,需要遵守http協議。本節將介紹一些關于http的基礎知識。

http基本流程

我們打開一個網頁的過程,就是一次http請求的過程。這個過程中,我們自己的主機充當著客戶機的作用,而充當客戶端的是瀏覽器。我們輸入的URL對應著網絡中某臺服務器上面的資源,服務器接收到客戶端發出的http請求之后,會給客戶端一個響應,響應的內容就是請求的URL對應的內容,當客戶端接收到服務器的響應時,我們就可以在瀏覽器上看見請求的信息了。

我們可以通過python的requests模塊很方便的發起http請求。requests模塊是第三方模塊,安裝完成之后直接import就能使用。下面介紹一些簡單的用法

發起請求

import requests# 請求的首部信息headers = { ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36’}# 例子的urlurl = ’https://voice.hupu.com/nba’ # 虎撲nba新聞# 利用requests對象的get方法,對指定的url發起請求# 該方法會返回一個Response對象res = requests.get(url, headers=headers)# 通過Response對象的text方法獲取網頁的文本信息print(res.text)

上面的代碼中,我們向虎撲的服務器發送了一個get請求,獲取虎撲首頁的nba新聞。headers參數指的是http請求的首部信息,我們請求的url對應的資源是虎撲nba新聞的首頁。獲取到對應的網頁資源之后,我們需要對其中的信息進行提取。

通過BeautifulSoup提取網頁信息

BeautifulSoup庫提供了很多解析html的方法,可以幫助我們很方便地提取我們需要的內容。我們這里說的BeautifulSoup指的是bs4。當我們成功抓取網頁之后,就可以通過BeautifulSoup對象對網頁內容進行解析。在BeautifulSoup中,我們最常用的方法就是find()方法和find_all()方法,借助于這兩個方法,可以輕松地獲取到我們需要的標簽或者標簽組。關于其他的方法,可以參考bs4的官方文檔:BeautifulSoup

find()方法和find_all()方法的用法如下

find(name , attrs , recursive , string , **kwargs )# find_all()方法將返回文檔中符合條件的所有tag,find_all(name , attrs , recursive , string , **kwargs )

from bs4 import BeautifulSoup# BeautifulSoup對象接收html文檔字符串# lxml是html解析器soup = Beautiful(res.text, ’lxml’)# 下面的方法找出了所有class為hello的span標簽# 并將所有的結果都放入一個list返回tags = soup.find_all(’span’, {’class’: ’hello’})

實例擴展:

實例一:

#第一種方法import urllib2 #將urllib2庫引用進來response=urllib2.urlopen('http://www.baidu.com') #調用庫中的方法,將請求回應封裝到response對象中html=response.read() #調用response對象的read()方法,將回應字符串賦給hhtml變量print html #打印出來

實例二:

#第二中方法import urllib2req=urllib2.Request('http://ww.baidu.com')response=urllib2.urlopen(req)html = response.read()print html

到此這篇關于用python寫爬蟲簡單嗎的文章就介紹到這了,更多相關python寫爬蟲難嗎內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 活性炭-果壳木质煤质柱状粉状蜂窝活性炭厂家价格多少钱 | 室内室外厚型|超薄型|非膨胀型钢结构防火涂料_隧道专用防火涂料厂家|电话|价格|批发|施工 | 布袋式除尘器|木工除尘器|螺旋输送机|斗式提升机|刮板输送机|除尘器配件-泊头市德佳环保设备 | 南京展台搭建-南京展会设计-南京展览设计公司-南京展厅展示设计-南京汇雅展览工程有限公司 | 移动厕所租赁|移动卫生间|上海移动厕所租赁-家瑞租赁 | 楼承板设备-楼承板成型机-免浇筑楼承板机器厂家-捡来 | 压力变送器-上海武锐自动化设备有限公司 | 吸污车_吸粪车_抽粪车_电动三轮吸粪车_真空吸污车_高压清洗吸污车-远大汽车制造有限公司 | 洁净化验室净化工程_成都实验室装修设计施工_四川华锐净化公司 | 德国EA可编程直流电源_电子负载,中国台湾固纬直流电源_交流电源-苏州展文电子科技有限公司 | 酒糟烘干机-豆渣烘干机-薯渣烘干机-糟渣烘干设备厂家-焦作市真节能环保设备科技有限公司 | 五轴加工中心_数控加工中心_铝型材加工中心-罗威斯 | 玻璃钢板-玻璃钢防腐瓦-玻璃钢材料-广东壹诺 | 无锡网站建设_小程序制作_网站设计公司_无锡网络公司_网站制作 | 国际金融网_每日财经新资讯网 | 动物麻醉机-数显脑立体定位仪-北京易则佳科技有限公司 | 培训无忧网-教育培训咨询招生第三方平台| 喷播机厂家_二手喷播机租赁_水泥浆洒布机-河南青山绿水机电设备有限公司 | 众能联合-提供高空车_升降机_吊车_挖机等一站工程设备租赁 | 深圳彩钢板_彩钢瓦_岩棉板_夹芯板_防火复合彩钢板_长鑫 | 视频教程导航网_视频教程之家_视频教程大全_最新视频教程分享发布平台 | 阀门智能定位器_电液动执行器_气动执行机构-赫尔法流体技术(北京)有限公司 | 东莞市踏板石餐饮管理有限公司_正宗桂林米粉_正宗桂林米粉加盟_桂林米粉加盟费-东莞市棒子桂林米粉 | 电磁辐射仪-电磁辐射检测仪-pm2.5检测仪-多功能射线检测仪-上海何亦仪器仪表有限公司 | 国标白水泥,高标号白水泥,白水泥厂家-淄博华雪建材有限公司 | 聚丙烯酰胺_厂家_价格-河南唐达净水材料有限公司 | 厌氧反应器,IC厌氧反应器,厌氧三相分离器-山东创博环保科技有限公司 | 郑州律师咨询-郑州律师事务所_河南锦盾律师事务所 | 3dmax渲染-效果图渲染-影视动画渲染-北京快渲科技有限公司 | 原色会计-合肥注册公司_合肥代理记账公司_营业执照代办 | 儿童乐园|游乐场|淘气堡招商加盟|室内儿童游乐园配套设备|生产厂家|开心哈乐儿童乐园 | 单柱拉力机-橡胶冲片机-哑铃裁刀-江都轩宇试验机械厂 | 网站建设,北京网站建设,北京网站建设公司,网站系统开发,北京网站制作公司,响应式网站,做网站公司,海淀做网站,朝阳做网站,昌平做网站,建站公司 | 校园文化空间设计-数字化|中医文化空间设计-党建|法治廉政主题文化空间施工-山东锐尚文化传播公司 | 山东石英砂过滤器,除氟过滤器「价格低」-淄博胜达水处理 | 懂研帝_专业SCI论文润色机构_SCI投稿发表服务公司 | 传爱自考网_传爱自学考试网 | 海尔生物医疗四川代理商,海尔低温冰箱四川销售-成都壹科医疗器械有限公司 | 河南新乡德诚生产厂家主营震动筛,振动筛设备,筛机,塑料震动筛选机 | 防渗土工膜|污水处理防渗膜|垃圾填埋场防渗膜-泰安佳路通工程材料有限公司 | 吸音板,隔音板,吸音材料,吸音板价格,声学材料 - 佛山诺声吸音板厂家 |