电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

使用python 計算百分位數實現數據分箱代碼

瀏覽:42日期:2022-08-04 15:13:13

對于百分位數,相信大家都比較熟悉,以下解釋源引自百度百科。

百分位數,如果將一組數據從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。可表示為:一組n個觀測值按數值大小排列。如,處于p%位置的值稱第p百分位數。

因為百分位數是采用等分的方式劃分數據,因此也可用此方法進行等頻分箱。

import pandas as pdimport numpy as npimport randomt=pd.DataFrame(columns=[’l’,’s’])#隨機生成1000個0到999整數t[’l’]=[random.randint(0,999) for _range in range(1000)]#定義s為1,便于統計t[’s’]=1#通過np.percentile找到分位點l_bin=[]for i in range(0,101,10): l_bin.append(np.percentile(t[’l’],i))#分位點最后一個數加上一個極小的數,否則切分后數字999會標記為nanl_bin[-1]+=1/1e10print(’分位點:’,np.array(l_bin).round(2))#對隨機數進行切分,right=False時左閉右開t[’box’]=pd.cut(t[’l’],l_bin,right=False)tj=t.groupby(’box’)[’s’].agg(’sum’)print(’分箱統計’)print(tj)#生成新的標簽label=[]for i in range(len(l_bin)-1): label.append(str(l_bin[i].round(4))+’+’)#原標簽和自定義的新標簽生成字典 list_box_td=list(set(t[’box’]))list_box_td.sort()dict_t=dict(zip(list_box_td,label))#根據字典進行替換t[’new_box’]=t[’box’].replace(dict_t)print(’新分箱統計’)tj=t.groupby(’new_box’)[’s’].agg(’sum’)print(tj)del t[’s’]print(t.head())

輸出結果:

分位點: [ 0. 90.9 194.6 290. 386. 473.5 589. 688. 783.2 884.2 997. ]分箱統計box[0.0, 90.9) 100[90.9, 194.6) 100[194.6, 290.0) 99[290.0, 386.0) 99[386.0, 473.5) 102[473.5, 589.0) 99[589.0, 688.0) 100[688.0, 783.2) 101[783.2, 884.2) 100[884.2, 997.0) 100Name: s, dtype: int64新分箱統計new_box0.0+ 100194.6+ 99290.0+ 99386.0+ 102473.5+ 99589.0+ 100688.0+ 101783.2+ 100884.2+ 10090.9+ 100Name: s, dtype: int64 l box new_box0 253 [194.6, 290.0) 194.6+1 468 [386.0, 473.5) 386.0+2 130 [90.9, 194.6) 90.9+3 476 [473.5, 589.0) 473.5+4 656 [589.0, 688.0) 589.0+

可以看出每個分箱內,約有100個數字。根據這個方法,可以自定義一些標簽。

補充拓展:python 計算動態時點的百分位數

【說明】

1、動態時點:每次計算的數據框為截止于當前行的數據,即累計行(多次計算);

2、靜態時點(當前時間):計算的數據框為所有行(一次計算);

【代碼】

test = pd.DataFrame(np.random.randint(1, 10, size=10), columns=[’value’]) # 生成[1,10]的隨機整數test[’pct_sf’] = test.index.map(lambda x: test.ix[:x].value.rank(pct=True)[x]) # 動態時點test[’pct’] = test.value.rank(pct=True) # 當前時點test

使用python 計算百分位數實現數據分箱代碼

以上這篇使用python 計算百分位數實現數據分箱代碼就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 济南保安公司加盟挂靠-亮剑国际安保服务集团总部-山东保安公司|济南保安培训学校 | 液压油缸-液压缸厂家价格,液压站系统-山东国立液压制造有限公司 液压油缸生产厂家-山东液压站-济南捷兴液压机电设备有限公司 | 喷码机,激光喷码打码机,鸡蛋打码机,手持打码机,自动喷码机,一物一码防伪溯源-恒欣瑞达有限公司 | 烟雾净化器-滤筒除尘器-防爆除尘器-除尘器厂家-东莞执信环保科技有限公司 | 芜湖厨房设备_芜湖商用厨具_芜湖厨具设备-芜湖鑫环厨具有限公司 控显科技 - 工控一体机、工业显示器、工业平板电脑源头厂家 | 点胶机_点胶阀_自动点胶机_智能点胶机_喷胶机_点胶机厂家【欧力克斯】 | 厂厂乐-汇聚海量采购信息的B2B微营销平台-厂厂乐官网 | 网架支座@球铰支座@钢结构支座@成品支座厂家@万向滑动支座_桥兴工程橡胶有限公司 | 范秘书_懂你的范文小秘书| 澳威全屋定制官网|极简衣柜十大品牌|衣柜加盟代理|全屋定制招商 百度爱采购运营研究社社群-店铺托管-爱采购代运营-良言多米网络公司 | 物和码官网,物和码,免费一物一码数字化营销SaaS平台 | 杭州中策电线|中策电缆|中策电线|杭州中策电缆|杭州中策电缆永通集团有限公司 | 精密钢管,冷拔精密无缝钢管,精密钢管厂,精密钢管制造厂家,精密钢管生产厂家,山东精密钢管厂家 | 河北码上网络科技|邯郸小程序开发|邯郸微信开发|邯郸网站建设 | 耐火浇注料-喷涂料-浇注料生产厂家_郑州市元领耐火材料有限公司 耐力板-PC阳光板-PC板-PC耐力板 - 嘉兴赢创实业有限公司 | 牛奶检测仪-乳成分分析仪-北京海谊 | 低气压试验箱_高低温低气压试验箱_低气压实验箱 |林频试验设备品牌 | 100国际学校招生 - 专业国际学校择校升学规划| ★店家乐|服装销售管理软件|服装店收银系统|内衣店鞋店进销存软件|连锁店管理软件|收银软件手机版|会员管理系统-手机版,云版,App | 山东风淋室_201/304不锈钢风淋室净化设备厂家-盛之源风淋室厂家 翻斗式矿车|固定式矿车|曲轨侧卸式矿车|梭式矿车|矿车配件-山东卓力矿车生产厂家 | 深圳市东信高科自动化设备有限公司 | 不锈钢监控杆_监控立杆厂家-廊坊耀星光电科技有限公司 | 氧氮氢联合测定仪-联测仪-氧氮氢元素分析仪-江苏品彦光电 | 电加热导热油炉-空气加热器-导热油加热器-翅片电加热管-科安达机械 | 上海公司注册-代理记账-招投标审计-上海昆仑扇财税咨询有限公司 上海冠顶工业设备有限公司-隧道炉,烘箱,UV固化机,涂装设备,高温炉,工业机器人生产厂家 | 不锈钢搅拌罐_高速搅拌罐厂家-无锡市凡格德化工装备科技有限公司 | 英思科GTD-3000EX(美国英思科气体检测仪MX4MX6)百科-北京嘉华众信科技有限公司 | 菏泽知彼网络科技有限公司 | 韦伯电梯有限公司| 【ph计】|在线ph计|工业ph计|ph计厂家|ph计价格|酸度计生产厂家_武汉吉尔德科技有限公司 | 自动部分收集器,进口无油隔膜真空泵,SPME固相微萃取头-上海楚定分析仪器有限公司 | 超声波乳化机-超声波分散机|仪-超声波萃取仪-超声波均质机-精浩机械|首页 | 专业甜品培训学校_广东糖水培训_奶茶培训_特色小吃培训_广州烘趣甜品培训机构 | 橡胶电子拉力机-塑料-微电脑电子拉力试验机厂家-江苏天源 | 便携式高压氧舱-微压氧舱-核生化洗消系统-公众洗消站-洗消帐篷-北京利盟救援 | 外贮压-柜式-悬挂式-七氟丙烷-灭火器-灭火系统-药剂-价格-厂家-IG541-混合气体-贮压-非贮压-超细干粉-自动-灭火装置-气体灭火设备-探火管灭火厂家-东莞汇建消防科技有限公司 | 工业插头-工业插头插座【厂家】-温州罗曼电气| 电子元器件呆滞料_元器件临期库存清仓尾料_尾料优选现货采购处理交易商城 | 螺旋绞龙叶片,螺旋输送机厂家,山东螺旋输送机-淄博长江机械制造有限公司 | 动库网动库商城-体育用品专卖店:羽毛球,乒乓球拍,网球,户外装备,运动鞋,运动包,运动服饰专卖店-正品运动品网上商城动库商城网 - 动库商城 | 等离子空气净化器_医用空气消毒机_空气净化消毒机_中央家用新风系统厂家_利安达官网 |