电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作

瀏覽:4日期:2022-07-22 15:00:13

1. 目標

通過hadoop hive或spark等數據計算框架完成數據清洗后的數據在HDFS上

爬蟲和機器學習在Python中容易實現

在Linux環境下編寫Python沒有pyCharm便利

需要建立Python與HDFS的讀寫通道

2. 實現

安裝Python模塊pyhdfs

版本:Python3.6, hadoop 2.9

讀文件代碼如下

from pyhdfs import HdfsClientclient=HdfsClient(hosts=’ghym:50070’)#hdfs地址res=client.open(’/sy.txt’)#hdfs文件路徑,根目錄/for r in res: line=str(r,encoding=’utf8’)#open后是二進制,str()轉換為字符串并轉碼 print(line)

寫文件代碼如下

from pyhdfs import HdfsClientclient=HdfsClient(hosts=’ghym:50070’,user_name=’hadoop’)#只有hadoop用戶擁有寫權限str=’hello world’client.create(’/py.txt’,str)#創建新文件并寫入字符串

上傳本地文件到HDFS

from pyhdfs import HdfsClientclient = HdfsClient(hosts=’ghym:50070’, user_name=’hadoop’)client.copy_from_local(’d:/pydemo.txt’, ’/pydemo’)#本地文件絕對路徑,HDFS目錄必須不存在

3. 讀取文本文件寫入csv

Python安裝pandas模塊

確認文本文件的分隔符

# pyhdfs讀取文本文件,分隔符為逗號,from pyhdfs import HdfsClientclient = HdfsClient(hosts=’ghym:50070’, user_name=’hadoop’)inputfile=client.open(’/int.txt’)# pandas調用讀取方法read_tableimport pandas as pddf=pd.read_table(inputfile,encoding=’gbk’,sep=’,’)#參數為源文件,編碼,分隔符# 數據集to_csv方法轉換為csvdf.to_csv(’demo.csv’,encoding=’gbk’,index=None)#參數為目標文件,編碼,是否要索引

補充知識:記 讀取hdfs 轉 pandas 再經由pandas轉為csv的一個坑

工作流程是這樣的:

讀取 hdfs 的 csv 文件,采用的是 hdfs 客戶端提供的 read 方法,該方法返回一個生成器。

將讀取到的數據按 逗號 處理,變為一個二維數組。

將二維數組傳給 pandas,生成 df。

經若干處理后,將 df 轉為 csv 文件并寫入hdfs。

問題是這樣的:

正常的數據:

ZERO,MEAN,STD,CV,INC,OPP,CS,IS_OUTNET

0,9.233,2.445,0.265,1.202,241,1,0

0,8.667,1.882,0.217,1.049,179,1,0

三行數據,正常走流程,沒有任何問題。

異常數據:

ZERO,MEAN,STD,CV,INC,OPP,CS,IS_OUTNET,probability,prediction

0,9.233,2.445,0.265,1.202,241,1,0,’[0.9653901649086855,0.03460983509131456]’,0.0

0,8.667,1.882,0.217,1.049,179,1,0,’[0.9653901649086855,0.03460983509131456]’,0.0

在每一行中都會有一個數組類似的數據,有一對引號包起來,中間存在逗號,不可以拆分。

為此,我的做法如下:

匹配逗號是被成對引號包圍的字符串。

將匹配到的字符串中的逗號替換為特定字符。

將替換后的新字符串替換回原字符串。

在將原字符串中的特定字符串替換為逗號。

本來這樣做沒有什么問題,但是在經由pandas轉為csv的時候,發現原來帶引號的字符串變為了前后各帶三個引號。

源數據:

Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作

處理后的數據:

Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作

方法如下:

Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作

仔細研究對比了下數據,發現數據里的引號其實只是在純文本文件中用來標識其為字符串,并不應該存在于實際數據中。

Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作

而我每次匹配后都是原封不動替換回去,譬如:

源數據:

'[0.9653901649086855,0.03460983509131456]'

匹配替換后:

'[0.9653901649086855${dot}0.03460983509131456]'

這樣傳給pandas,它就會認為這個數據是帶引號的,在重新轉為csv的時候,就會進行轉義等操作,導致多出很多引號。

所以解決辦法就是在替換之前,將匹配時遇到的引號也去掉:

PATTERN = ’(?<=(?P<quote>[’']))([^,]+,[^,]+)+?(?=(?P=quote))’

中間 ([^,]+,[^,]+)+? 要用+?,因為必須確定是有這樣的組合才可以,并且非貪婪模式,故不可 ? 或者 *?

Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作

(ps:為了方便后面引用前面的匹配,我在環視匹配中創建了一個組)

再來個整體效果:

Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作

為了說明效果,引用pandas的自帶讀取csv方法:

Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作

可以看到pandas讀取出的該位置數據也是字符串,引號正是作為一個字符串聲明而存在。

再次修改正則:

def split_by_dot_escape_quote(string): ''' 按逗號分隔字符串,若其中有引號,將引號內容視為整體 ''' # 匹配引號中的內容,非貪婪,采用正向肯定環視, # 當左引號(無論單雙引)被匹配到,放入組quote, # 中間的內容任意,但是要用+?,非貪婪,且至少有一次匹配到字符, # 若*?,則匹配0次也可,并不會匹配任意字符(環視只匹配位置不匹配字符), # 由于在任意字符后面又限定了前面匹配到的quote,故只會匹配到', # +?則會限定前面必有字符被匹配,故'',或引號中任意值都可匹配到 pattern = re.compile(’(?=(?P<quote>[’'])).+?(?P=quote)’) rs = re.finditer(pattern, string) for data in rs: # 匹配到的字符串 old_str = data.group() # 將匹配到的字符串中的逗號替換為特定字符, # 以便還原到原字符串進行替換 new_str = old_str.replace(’,’, ’${dot}’) # 由于匹配到的引號僅為字符串申明,并不具有實際意義, # 需要把匹配時遇到的引號都去掉,只替換掉當前匹配組的引號 new_str = re.sub(data.group(’quote’), ’’, new_str) string = string.replace(old_str, new_str) sps = string.split(’,’) return map(lambda x: x.replace(’${dot}’, ’,’), sps) s = ’'2011,603','3510006998','F','5','5','0',''’print(list(split_by_dot_escape_quote(s)))

運行結果如下:

Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作

之前想的正則有些復雜,反而偏離了本意,還是對正則的認識不夠深。

以上這篇Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 薄壁轴承-等截面薄壁轴承生产厂家-洛阳薄壁精密轴承有限公司 | 老房子翻新装修,旧房墙面翻新,房屋防水补漏,厨房卫生间改造,室内装潢装修公司 - 一修房屋快修官网 | 衬四氟_衬氟储罐_四氟储罐-无锡市氟瑞特防腐科技有限公司 | 中细软知识产权_专业知识产权解决方案提供商 | 耐高温电缆厂家-远洋高温电缆| 【电子厂招聘_普工招工网_工厂招聘信息平台】-工立方打工网 | 哈尔滨京科脑康神经内科医院-哈尔滨治疗头痛医院-哈尔滨治疗癫痫康复医院 | 篷房|仓储篷房|铝合金篷房|体育篷房|篷房厂家-华烨建筑科技官网 知名电动蝶阀,电动球阀,气动蝶阀,气动球阀生产厂家|价格透明-【固菲阀门官网】 | 长沙一级消防工程公司_智能化弱电_机电安装_亮化工程专业施工承包_湖南公共安全工程有限公司 | 深圳宣传片制作_产品视频制作_深圳3D动画制作公司_深圳短视频拍摄-深圳市西典映画传媒有限公司 | 定做大型恒温循环水浴槽-工业用不锈钢恒温水箱-大容量低温恒温水槽-常州精达仪器 | 钢格板|镀锌钢格板|热镀锌钢格板|格栅板|钢格板|钢格栅板|热浸锌钢格板|平台钢格板|镀锌钢格栅板|热镀锌钢格栅板|平台钢格栅板|不锈钢钢格栅板 - 专业钢格板厂家 | 新密高铝耐火砖,轻质保温砖价格,浇注料厂家直销-郑州荣盛窑炉耐火材料有限公司 | 衬四氟_衬氟储罐_四氟储罐-无锡市氟瑞特防腐科技有限公司 | 耐热钢-耐磨钢-山东聚金合金钢铸造有限公司 | 赛尔特智能移动阳光房-阳光房厂家-赛尔特建筑科技(广东)有限公司 | 粉末冶金-粉末冶金齿轮-粉末冶金零件厂家-东莞市正朗精密金属零件有限公司 | elisa试剂盒价格-酶联免疫试剂盒-猪elisa试剂盒-上海恒远生物科技有限公司 | 【孔氏陶粒】建筑回填陶粒-南京/合肥/武汉/郑州/重庆/成都/杭州陶粒厂家 | 高尔夫球杆_高尔夫果岭_高尔夫用品-深圳市新高品体育用品有限公司 | 绿叶|绿叶投资|健康产业_绿叶投资集团有限公司 | 科昊仪器超纯水机系统-可成气相液氮罐-美菱超低温冰箱-西安昊兴生物科技有限公司 | 高低温万能试验机_拉力试验机_拉伸试验机-馥勒仪器科技(上海)有限公司 | 升降机-高空作业车租赁-蜘蛛车-曲臂式伸缩臂剪叉式液压升降平台-脚手架-【普雷斯特公司厂家】 | 单螺旋速冻机-双螺旋-流态化-隧道式-食品速冻机厂家-广州冰泉制冷 | 翻斗式矿车|固定式矿车|曲轨侧卸式矿车|梭式矿车|矿车配件-山东卓力矿车生产厂家 | 深圳宣传片制作-企业宣传视频制作-产品视频拍摄-产品动画制作-短视频拍摄制作公司 | 刺绳_刀片刺网_刺丝滚笼_不锈钢刺绳生产厂家_安平县浩荣金属丝网制品有限公司-安平县浩荣金属丝网制品有限公司 | 南京PVC快速门厂家南京快速卷帘门_南京pvc快速门_世界500强企业国内供应商_南京美高门业 | 动库网动库商城-体育用品专卖店:羽毛球,乒乓球拍,网球,户外装备,运动鞋,运动包,运动服饰专卖店-正品运动品网上商城动库商城网 - 动库商城 | 工业PH计|工业ph酸度计|在线PH计价格-合肥卓尔仪器仪表有限公司 济南画室培训-美术高考培训-山东艺霖艺术培训画室 | 橡胶电子拉力机-塑料-微电脑电子拉力试验机厂家-江苏天源 | 砍排机-锯骨机-冻肉切丁机-熟肉切片机-预制菜生产线一站式服务厂商 - 广州市祥九瑞盈机械设备有限公司 | 橡胶接头_橡胶软接头_可曲挠橡胶接头-巩义市创伟机械制造有限公司 | 全自动不干胶贴标机_套标机-上海今昂贴标机生产厂家 | 荣事达手推洗地机_洗地机厂家_驾驶式扫地机_工业清洁设备 | 杰福伦_磁致伸缩位移传感器_线性位移传感器-意大利GEFRAN杰福伦-河南赉威液压科技有限公司 | 磷酸肌酸二钠盐,肌酐磷酰氯-沾化欣瑞康生物科技 | 直读光谱仪,光谱分析仪,手持式光谱仪,碳硫分析仪,创想仪器官网 | 行星齿轮减速机,减速机厂家,山东减速机-淄博兴江机械制造 | 盘煤仪,盘料仪,盘点仪,堆料测量仪,便携式激光盘煤仪-中科航宇(北京)自动化工程技术有限公司 |