电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

使用python 計算百分位數實現數據分箱代碼

瀏覽:45日期:2022-08-04 15:13:13

對于百分位數,相信大家都比較熟悉,以下解釋源引自百度百科。

百分位數,如果將一組數據從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。可表示為:一組n個觀測值按數值大小排列。如,處于p%位置的值稱第p百分位數。

因為百分位數是采用等分的方式劃分數據,因此也可用此方法進行等頻分箱。

import pandas as pdimport numpy as npimport randomt=pd.DataFrame(columns=[’l’,’s’])#隨機生成1000個0到999整數t[’l’]=[random.randint(0,999) for _range in range(1000)]#定義s為1,便于統計t[’s’]=1#通過np.percentile找到分位點l_bin=[]for i in range(0,101,10): l_bin.append(np.percentile(t[’l’],i))#分位點最后一個數加上一個極小的數,否則切分后數字999會標記為nanl_bin[-1]+=1/1e10print(’分位點:’,np.array(l_bin).round(2))#對隨機數進行切分,right=False時左閉右開t[’box’]=pd.cut(t[’l’],l_bin,right=False)tj=t.groupby(’box’)[’s’].agg(’sum’)print(’分箱統計’)print(tj)#生成新的標簽label=[]for i in range(len(l_bin)-1): label.append(str(l_bin[i].round(4))+’+’)#原標簽和自定義的新標簽生成字典 list_box_td=list(set(t[’box’]))list_box_td.sort()dict_t=dict(zip(list_box_td,label))#根據字典進行替換t[’new_box’]=t[’box’].replace(dict_t)print(’新分箱統計’)tj=t.groupby(’new_box’)[’s’].agg(’sum’)print(tj)del t[’s’]print(t.head())

輸出結果:

分位點: [ 0. 90.9 194.6 290. 386. 473.5 589. 688. 783.2 884.2 997. ]分箱統計box[0.0, 90.9) 100[90.9, 194.6) 100[194.6, 290.0) 99[290.0, 386.0) 99[386.0, 473.5) 102[473.5, 589.0) 99[589.0, 688.0) 100[688.0, 783.2) 101[783.2, 884.2) 100[884.2, 997.0) 100Name: s, dtype: int64新分箱統計new_box0.0+ 100194.6+ 99290.0+ 99386.0+ 102473.5+ 99589.0+ 100688.0+ 101783.2+ 100884.2+ 10090.9+ 100Name: s, dtype: int64 l box new_box0 253 [194.6, 290.0) 194.6+1 468 [386.0, 473.5) 386.0+2 130 [90.9, 194.6) 90.9+3 476 [473.5, 589.0) 473.5+4 656 [589.0, 688.0) 589.0+

可以看出每個分箱內,約有100個數字。根據這個方法,可以自定義一些標簽。

補充拓展:python 計算動態時點的百分位數

【說明】

1、動態時點:每次計算的數據框為截止于當前行的數據,即累計行(多次計算);

2、靜態時點(當前時間):計算的數據框為所有行(一次計算);

【代碼】

test = pd.DataFrame(np.random.randint(1, 10, size=10), columns=[’value’]) # 生成[1,10]的隨機整數test[’pct_sf’] = test.index.map(lambda x: test.ix[:x].value.rank(pct=True)[x]) # 動態時點test[’pct’] = test.value.rank(pct=True) # 當前時點test

使用python 計算百分位數實現數據分箱代碼

以上這篇使用python 計算百分位數實現數據分箱代碼就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 许昌奥仕达自动化设备有限公司 | 济南品牌设计-济南品牌策划-即合品牌策划设计-山东即合官网 | 常州企业采购平台_常州MRO采购公司_常州米孚机电设备有限公司 | 小区健身器材_户外健身器材_室外健身器材_公园健身路径-沧州浩然体育器材有限公司 | 天品互联-北京APP开发公司-小程序开发制作-软件开发 | 净化车间_洁净厂房_净化公司_净化厂房_无尘室工程_洁净工程装修|改造|施工-深圳净化公司 | 武汉不干胶印刷_标签设计印刷_不干胶标签印刷厂 - 武汉不干胶标签印刷厂家 | 小型UV打印机-UV平板打印机-大型uv打印机-UV打印机源头厂家 |松普集团 | 陶氏道康宁消泡剂_瓦克消泡剂_蓝星_海明斯德谦_广百进口消泡剂 | 污泥烘干机-低温干化机-工业污泥烘干设备厂家-焦作市真节能环保设备科技有限公司 | 阴离子聚丙烯酰胺价格_PAM_高分子聚丙烯酰胺厂家-河南泰航净水材料有限公司 | 福兰德PVC地板|PVC塑胶地板|PVC运动地板|PVC商用地板-中国弹性地板系统专业解决方案领先供应商! 福建成考网-福建成人高考网 | 专业深孔加工_东莞深孔钻加工_东莞深孔钻_东莞深孔加工_模具深孔钻加工厂-东莞市超耀实业有限公司 | 鑫达滑石-辽宁鑫达滑石集团| 臭氧老化试验箱,高低温试验箱,恒温恒湿试验箱,防水试验设备-苏州亚诺天下仪器有限公司 | 房间温控器|LonWorks|海思 | 锌合金压铸-铝合金压铸厂-压铸模具-冷挤压-誉格精密压铸 | 合肥地磅_合肥数控切割机_安徽地磅厂家_合肥世佳电工设备有限公司 | 汽车整车综合环境舱_军标砂尘_盐雾试验室试验箱-无锡苏南试验设备有限公司 | LED投光灯-工矿灯-led路灯头-工业灯具 - 山东普瑞斯照明科技有限公司 | 珠海网站建设_响应网站建设_珠海建站公司_珠海网站设计与制作_珠海网讯互联 | 安全,主动,被动,柔性,山体滑坡,sns,钢丝绳,边坡,防护网,护栏网,围栏,栏杆,栅栏,厂家 - 护栏网防护网生产厂家 | 泰国试管婴儿_泰国第三代试管婴儿_泰国试管婴儿费用/多少钱_孕泰来 | 【直乐】河北石家庄脊柱侧弯医院_治疗椎间盘突出哪家医院好_骨科脊柱外科专业医院_治疗抽动症/关节病骨伤权威医院|排行-直乐矫形中医医院 | 电动卫生级调节阀,电动防爆球阀,电动软密封蝶阀,气动高压球阀,气动对夹蝶阀,气动V型调节球阀-上海川沪阀门有限公司 | 南京蜂窝纸箱_南京木托盘_南京纸托盘-南京博恒包装有限公司 | 低浓度恒温恒湿称量系统,强光光照培养箱-上海三腾仪器有限公司 | 无线遥控更衣吊篮_IC卡更衣吊篮_电动更衣吊篮配件_煤矿更衣吊篮-力得电子 | 组织研磨机-高通量组织研磨仪-实验室多样品组织研磨机-东方天净 传递窗_超净|洁净工作台_高效过滤器-传递窗厂家广州梓净公司 | 钢丝绳探伤仪-钢丝绳检测仪-钢丝绳探伤设备-洛阳泰斯特探伤技术有限公司 | 琉璃瓦-琉璃瓦厂家-安徽盛阳新型建材科技有限公司 | 新密高铝耐火砖,轻质保温砖价格,浇注料厂家直销-郑州荣盛窑炉耐火材料有限公司 | 等离子表面处理机-等离子表面活化机-真空等离子清洗机-深圳市东信高科自动化设备有限公司 | 电缆故障测试仪_电缆故障定位仪_探测仪_检测仪器_陕西意联电气厂家 | 一氧化氮泄露报警器,二甲苯浓度超标报警器-郑州汇瑞埔电子技术有限公司 | 浙江红酒库-冰雕库-气调库-茶叶库安装-医药疫苗冷库-食品物流恒温恒湿车间-杭州领顺实业有限公司 | 奥因-光触媒除甲醛公司-除甲醛加盟公司十大品牌 | 报警器_家用防盗报警器_烟雾报警器_燃气报警器_防盗报警系统厂家-深圳市刻锐智能科技有限公司 | 蓝鹏测控平台 - 智慧车间系统 - 车间生产数据采集与分析系统 | 动物解剖台-成蚊接触筒-标本工具箱-负压实验台-北京哲成科技有限公司 | 淬火设备-钎焊机-熔炼炉-中频炉-锻造炉-感应加热电源-退火机-热处理设备-优造节能 |