电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

python讀取hdfs上的parquet文件方式

瀏覽:6日期:2022-07-22 15:00:03

在使用python做大數據和機器學習處理過程中,首先需要讀取hdfs數據,對于常用格式數據一般比較容易讀取,parquet略微特殊。從hdfs上使用python獲取parquet格式數據的方法(當然也可以先把文件拉到本地再讀取也可以):

1、安裝anaconda環境。

2、安裝hdfs3。

conda install hdfs3

3、安裝fastparquet。

conda install fastparquet

4、安裝python-snappy。

conda install python-snappy

5、讀取文件

##namenode mode:from hdfs3 import HDFileSystemfrom fastparquet import ParquetFile hdfs = HDFileSystem(host=IP, port=8020)sc = hdfs.open pf = ParquetFile(filename, open_with=sc)df = pf.to_pandas() ##返回pandas的DataFrame類型 ##HA mode:from hdfs3 import HDFileSystemfrom fastparquet import ParquetFile host = 'nameservice1'conf = { 'dfs.nameservices':'nameservice1', ......}hdfs = HDFileSystem(host = host, pars = conf)......

python訪問HDFS HA的三種方法

python訪問hdfs常用的包有三個,如下:

1、hdfs3

其實從安裝便捷性和使用上來說,并不推薦hdfs3,因為他的系統依賴和網絡要求較高,但是某些情況下使用hdfs3會比較方便,官網資料點這里。如上面介紹,IP直接訪問namenode:

from hdfs3 import HDFileSystemhdfs = HDFileSystem(host=namenode, port=8020)hdfs.ls(’/tmp’)

HA訪問:

host = 'nameservice1'conf = {'dfs.nameservices': 'nameservice1', 'dfs.ha.namenodes.nameservice1': 'namenode113,namenode188', 'dfs.namenode.rpc-address.nameservice1.namenode113': 'hostname_of_server1:8020', 'dfs.namenode.rpc-address.nameservice1.namenode188': 'hostname_of_server2:8020', 'dfs.namenode.http-address.nameservice1.namenode188': 'hostname_of_server1:50070', 'dfs.namenode.http-address.nameservice1.namenode188': 'hostname_of_server2:50070', 'hadoop.security.authentication': 'kerberos'}fs = HDFileSystem(host=host, pars=conf) ##或者下面這種配置host = 'ns1'conf = { 'dfs.nameservices':'ns1', 'dfs.ha.namenodes.ns1':'namenode122,namenode115', 'dfs.namenode.rpc-address.ns1.namenode122':'nnlab01:8020', 'dfs.namenode.servicerpc-address.ns1.namenode122':'nnlab01:8022', 'dfs.namenode.http-address.ns1.namenode122':'nnlab01:50070', 'dfs.namenode.https-address.ns1.namenode122':'nnlab01:50470', 'dfs.namenode.rpc-address.ns1.namenode115':'nnlab02:8020', 'dfs.namenode.servicerpc-address.ns1.namenode115':'nnlab02:8022', 'dfs.namenode.http-address.ns1.namenode115':'nnlab02:50070', 'dfs.namenode.https-address.ns1.namenode115':'nnlab02:50470',}hdfs = HDFileSystem(host = host, pars = conf)

2、hdfs

這種方法在使用的時候配置比較簡單,官網資料也比較豐富,但是需要注意的是該API可以模擬用戶訪問,權限較大。IP直接訪問:

import hdfsclient = hdfs.client.InsecureClient(url='http://namenode:50070', user='hdfs')

HA訪問:

import hdfsclient = hdfs.client.InsecureClient(url='http://namenode1:50070;http://namenode2:50070', user='hdfs')

3、pyhdfs

安裝命令:pip install PyHDFS

官網地址,直接訪問:

import pyhdfsclient = pyhdfs.HdfsClient(hosts='namenode:50070',user_name='hdfs')

HA訪問

import pyhdfsclient = pyhdfs.HdfsClient(hosts=['namenode1:50070','namenode2:50070'],user_name='hdfs')

補充知識:python spark中parquet文件寫到hdfs,同時避免太多的小文件(block小文件合并)

在pyspark中,使用數據框的文件寫出函數write.parquet經常會生成太多的小文件,例如申請了100個block,而每個block中的結果

只有幾百K,這在機器學習算法的結果輸出中經常出現,這是一種很大的資源浪費,那么如何同時避免太多的小文件(block小文件合并)?

其實有一種簡單方法,該方法需要你對輸出結果的數據量有個大概估計,然后使用Dataframe中的coalesce函數來指定輸出的block數量

即可,具體使用代碼如下:

df.coalesce(2).write.parquet(path,mode)

這里df是指你要寫出的數據框,coalesce(2)指定了寫到2個block中,一個block默認128M,path是你的寫出路徑,mode是寫出模式,常用的是

'overwrite'和'append'。

以上這篇python讀取hdfs上的parquet文件方式就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 定量包装机,颗粒定量包装机,粉剂定量包装机,背封颗粒包装机,定量灌装机-上海铸衡电子科技有限公司 | 成都茶楼装修公司 - 会所设计/KTV装修 - 成都朗煜装饰公司 | 涿州网站建设_网站设计_网站制作_做网站_固安良言多米网络公司 | 楼承板-开口楼承板-闭口楼承板-无锡海逵 | 蒸汽热收缩机_蒸汽发生器_塑封机_包膜机_封切收缩机_热收缩包装机_真空机_全自动打包机_捆扎机_封箱机-东莞市中堡智能科技有限公司 | 悬浮拼装地板_幼儿园_篮球场_悬浮拼接地板-山东悬浮拼装地板厂家 | 上海小程序开发-上海小程序制作公司-上海网站建设-公众号开发运营-软件外包公司-咏熠科技 | 加热制冷恒温循环器-加热制冷循环油浴-杭州庚雨仪器有限公司 | 滁州高低温冲击试验箱厂家_安徽高低温试验箱价格|安徽希尔伯特 | 镀锌钢格栅_热镀锌格栅板_钢格栅板_热镀锌钢格板-安平县昊泽丝网制品有限公司 | 卫生纸复卷机|抽纸机|卫生纸加工设备|做卫生纸机器|小型卫生纸加工需要什么设备|卫生纸机器设备多少钱一台|许昌恒源纸品机械有限公司 | 上海单片机培训|重庆曙海培训分支机构—CortexM3+uC/OS培训班,北京linux培训,Windows驱动开发培训|上海IC版图设计,西安linux培训,北京汽车电子EMC培训,ARM培训,MTK培训,Android培训 | 粘弹体防腐胶带,聚丙烯防腐胶带-全民塑胶 | 上海刑事律师|刑事辩护律师|专业刑事犯罪辩护律师免费咨询-[尤辰荣]金牌上海刑事律师团队 | 中高频感应加热设备|高频淬火设备|超音频感应加热电源|不锈钢管光亮退火机|真空管烤消设备 - 郑州蓝硕工业炉设备有限公司 | 阀门智能定位器_电液动执行器_气动执行机构-赫尔法流体技术(北京)有限公司 | 安全,主动,被动,柔性,山体滑坡,sns,钢丝绳,边坡,防护网,护栏网,围栏,栏杆,栅栏,厂家 - 护栏网防护网生产厂家 | 郑州大巴车出租|中巴车租赁|旅游大巴租车|包车|郑州旅游大巴车租赁有限公司 | 振动时效_振动时效仪_超声波冲击设备-济南驰奥机电设备有限公司 北京宣传片拍摄_产品宣传片拍摄_宣传片制作公司-现像传媒 | 游泳池设计|设备|配件|药品|吸污机-东莞市太平洋康体设施有限公司 | 熔体泵|换网器|熔体齿轮泵|熔体计量泵厂家-郑州巴特熔体泵有限公司 | 植筋胶-粘钢胶-碳纤维布-碳纤维板-环氧砂浆-加固材料生产厂家-上海巧力建筑科技有限公司 | 机制砂选粉机_砂石选粉机厂家-盐城市助成粉磨科技有限公司 | 环讯传媒,永康网络公司,永康网站建设,永康小程序开发制作,永康网站制作,武义网页设计,金华地区网站SEO优化推广 - 永康市环讯电子商务有限公司 | 上海律师咨询_上海法律在线咨询免费_找对口律师上策法网-策法网 广东高华家具-公寓床|学生宿舍双层铁床厂家【质保十年】 | 氧化锆陶瓷_氧化锆陶瓷加工_氧化锆陶瓷生产厂家-康柏工业陶瓷有限公司 | 滑石粉,滑石粉厂家,超细滑石粉-莱州圣凯滑石有限公司 | 色油机-色母机-失重|称重式混料机-称重机-米重机-拌料机-[东莞同锐机械]精密计量科技制造商 | 超声波清洗机-超声波清洗设备定制生产厂家 - 深圳市冠博科技实业有限公司 | 等离子空气净化器_医用空气消毒机_空气净化消毒机_中央家用新风系统厂家_利安达官网 | 知网论文检测系统入口_论文查重免费查重_中国知网论文查询_学术不端检测系统 | 沈阳激光机-沈阳喷码机-沈阳光纤激光打标机-沈阳co2激光打标机 | 热缩管切管机-超声波切带机-织带切带机-无纺布切布机-深圳市宸兴业科技有限公司 | 真丝围巾|真丝丝巾|羊绒围巾|围巾品牌|浙江越缇围巾厂家定制 | 耐高温风管_耐高温软管_食品级软管_吸尘管_钢丝软管_卫生级软管_塑料波纹管-东莞市鑫翔宇软管有限公司 | 高尔夫球杆_高尔夫果岭_高尔夫用品-深圳市新高品体育用品有限公司 | 武汉天安盾电子设备有限公司 - 安盾安检,武汉安检门,武汉安检机,武汉金属探测器,武汉测温安检门,武汉X光行李安检机,武汉防爆罐,武汉车底安全检查,武汉液体探测仪,武汉安检防爆设备 | 高考志愿规划师_高考规划师_高考培训师_高报师_升学规划师_高考志愿规划师培训认证机构「向阳生涯」 | 金联宇电缆|广东金联宇电缆厂家_广东金联宇电缆实业有限公司 | 北京网站建设|北京网站开发|北京网站设计|高端做网站公司 | 不锈钢螺丝,不锈钢螺栓,不锈钢标准件-江苏百德特种合金有限公司 交变/复合盐雾试验箱-高低温冲击试验箱_安奈设备产品供应杭州/江苏南京/安徽马鞍山合肥等全国各地 |