电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

MySQL學習記錄之KEY分區引發的血案

瀏覽:30日期:2023-10-09 18:51:03

需求背景

業務表tb_image部分數據如下所示,其中id唯一,image_no不唯一。image_no表示每個文件的編號,每個文件在業務系統中會生成若干個文件,每個文件的唯一ID就是字段id:

MySQL學習記錄之KEY分區引發的血案

業務表tb_image的一些情況如下:

根據image_no查詢和根據id查詢; 存量數據2kw; 日增長4w左右; 日查詢量20w左右; 非ToC系統,所以并發的天花板可見;

方案選擇

根據上面對業務的分析,分庫分表完全沒有必要。單庫分表的話,由于要根據image_no和id查詢,所以,一種方案是冗余分表(即一份數據以image_no為分片鍵保存,另一份數據以id為分片鍵保存);另一種方案是只以image_no為分片鍵,而基于id的查詢需求,業務層進行結果歸并或者引入第三方中間件。

考慮到單庫分表比較復雜,所以決定使用分區特性,而且容量評估分區表方案128個分區(每個分區數據量kw級別)完全能保證業務至少穩定運行15年(圖中橙色部分是比較貼合自身業務實際增長情況):

MySQL學習記錄之KEY分區引發的血案

另外,由于RANGE, LIST, HASH分區都不支持VARCHAR列,所以決定采用KEY分區,官方介紹它的原理是以MySQL內置hash算法然后對分區數取模。

性能測試

選定分片鍵為image_no,并且決定分區數為128后,就要灌入數據進行可行性和性能測試了。分區數選擇128的原因是:11億/1kw=110≈128,另外程序員情節,喜歡用2的N次方,你懂的。然而, 這個分區數128就是一切噩夢的開始 。

我嘗試先插入10w數據到128個分區中,插入后,讓我驚訝的現象出現了: 所有奇數編號分區(p1, p3, p5, … , p2n-1)中居然沒有一條數據 ,同時,任何一個偶數編號分區卻有很多的數據,而且還不是很均勻。如下圖所示:

MySQL學習記錄之KEY分區引發的血案

說明:奇數編號分區的ibd文件大小都是112k,這是創建分區表時初始化大小,實際并沒有任何數據。我們可以通過SQL: select partition_name, partition_expression, table_rows from information_schema.partitions where table_schema = schema() and table_name=’image_subpart’ ;驗證,其部分結果如下圖所示:

難道10w條數據還不夠說明問題?平均下來每個分區可是有近800條數據!好吧,來點猛的:我再插入990w條數據,總計1kw數據。結果還是一樣,奇數編號分區沒有數據,偶數編號都有分區。

問題思考

我們再來回想一下KEY分區的原理: 通過MySQL內置hash算法對分片鍵計算hash值后再對分區數取模 。這個原理也可以從MySQL官網找到,請戳鏈接:22.2.5 KEY Partitioning: https://dev.mysql.com/doc/refman/5.7/en/partitioning-key.html,截取原文如下:

Partitioning by key is similar to partitioning by hash, except that where hash partitioning employs a user-defined expression, the hashing function for key partitioning is supplied by the MySQL server. NDB Cluster uses MD5() for this purpose; for tables using other storage engines, the server employs its own internal hashing function which is based on the same algorithm as PASSWORD().

**這個世界上不會有這么渣渣的hash算法吧?**隨便寫個什么算法也不至于這么不均勻吧?這時候我懷疑是否有一些什么配置引起的。但是show variables中并沒有任何與partition相關的變量。

這個時候,一萬匹馬奔騰而過。會不會是文檔和源碼不同步導致的?好吧,看MySQL的源碼,畢竟, 源碼才是最接近真相的地方 。KEY分區相關源碼在文件sql_partition.cc中,筆者截取部分關鍵源碼,如下所示,初略觀察,并沒有什么不妥,先計算分區字段的hash值然后對分區數取模:

/** Calculate part_id for (SUB)PARTITION BY KEY @param fileHandler to storage engine @param field_array Array of fields for PARTTION KEY @param num_parts Number of KEY partitions @param func_value[out] Returns calculated hash value @return Calculated partition id*/inlinestatic uint32 get_part_id_key(handler *file, Field **field_array, uint num_parts, longlong *func_value){ DBUG_ENTER('get_part_id_key'); // 計算分區字段的hash值 *func_value= file->calculate_key_hash_value(field_array); // 對分區數取模 DBUG_RETURN((uint32) (*func_value % num_parts));}

懷著絕望的心情,請出搜索引擎搜索:“KEY分區數據不均勻”,搜索結果中的CSDN論壇( https://bbs.csdn.net/topics/390857704)里有個民間高手華夏小卒回答如下:

一個同事根據password函數,分析并測出,key分區,只能指定分區數目為質數,才能保證每個分區都有數據。我測了下,從11個分區,到17個分區。 只有11,13,17 ,這3個分區的數據是基本平均分布的。

這個時候,又是一萬匹馬奔騰而過。不過 WHAT THE F**K 的同時,心里也是有點小激動,因為可能找到解決辦法了(雖然還不知道MySQL內置hash算法為毛會這樣),最后筆者再次對KEY分區測試并得出總結如下:

如果設置40,64,128等偶數個分區數(PARTITIONS 64),會導致編號為奇數的分區(p1, p3, p5, p7, … p2n-1)完全插不進數據; 如果設置63,121(PARTITIONS 63)這種奇數但非質數個分區數,所有分區都會有數據,但是不均勻; 如果設置137,31這種質數個分區數(PARTITIONS 137),所有分區都會有數據,并且非常均勻;

如下圖所示,是筆者把分區數調整為127并插入100w數據后的情況,通過SQL證明每個分區的數據量幾乎一樣:

MySQL學習記錄之KEY分區引發的血案

總結回顧

MySQL的KEY分區這么大的使用陷阱,居然在官方上沒有任何說明,這讓筆者感到非常震驚。此外還有MySQL bug:Bug #72428 Partition by KEY() results in uneven data distribution

正在看此文并有很強烈興趣的同學,可以嘗試更深入這個問題。筆者接下來也會找個時間,根據MySQL源碼深入挖掘其hash算法的實現為什么對分區數如此敏感。

到此這篇關于MySQL學習記錄之KEY分區引發的血案的文章就介紹到這了,更多相關MySQL KEY分區血案內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: MySQL 數據庫
相關文章:
主站蜘蛛池模板: 成都珞石机械 - 模温机、油温机、油加热器生产厂家 | 溶氧传感器-pH传感器|哈美顿(hamilton) | 北京租车牌|京牌指标租赁|小客车指标出租 | 盘煤仪,盘料仪,盘点仪,堆料测量仪,便携式激光盘煤仪-中科航宇(北京)自动化工程技术有限公司 | 【直乐】河北石家庄脊柱侧弯医院_治疗椎间盘突出哪家医院好_骨科脊柱外科专业医院_治疗抽动症/关节病骨伤权威医院|排行-直乐矫形中医医院 | 北京浩云律师事务所-法律顾问_企业法务_律师顾问_公司顾问 | 半容积式换热器_北京浮动盘管换热器厂家|北京亿丰上达 | 刑事律师_深圳著名刑事辩护律师_王平聚【清华博士|刑法教授】 | 安徽泰科检测科技有限公司【官方网站】 | 激光内雕_led玻璃_发光玻璃_内雕玻璃_导光玻璃-石家庄明晨三维科技有限公司 激光内雕-内雕玻璃-发光玻璃 | 环球电气之家-中国专业电气电子产品行业服务网站! | 工业机械三维动画制作 环保设备原理三维演示动画 自动化装配产线三维动画制作公司-南京燃动数字 聚合氯化铝_喷雾聚氯化铝_聚合氯化铝铁厂家_郑州亿升化工有限公司 | 电动球阀_不锈钢电动球阀_电动三通球阀_电动调节球阀_上海湖泉阀门有限公司 | 淬火设备-钎焊机-熔炼炉-中频炉-锻造炉-感应加热电源-退火机-热处理设备-优造节能 | 植筋胶-粘钢胶-碳纤维布-碳纤维板-环氧砂浆-加固材料生产厂家-上海巧力建筑科技有限公司 | 耐磨焊丝,堆焊焊丝,耐磨药芯焊丝,碳化钨焊丝-北京耐默公司 | 分类168信息网 - 分类信息网 免费发布与查询 | 化妆品加工厂-化妆品加工-化妆品代加工-面膜加工-广东欧泉生化科技有限公司 | 耐火浇注料-喷涂料-浇注料生产厂家_郑州市元领耐火材料有限公司 耐力板-PC阳光板-PC板-PC耐力板 - 嘉兴赢创实业有限公司 | 电动葫芦|防爆钢丝绳电动葫芦|手拉葫芦-保定大力起重葫芦有限公司 | 吉祥新世纪铝塑板_生产铝塑板厂家_铝塑板生产厂家_临沂市兴达铝塑装饰材料有限公司 | 模型公司_模型制作_沙盘模型报价-中国模型网 | 365文案网_全网创意文案句子素材站| 石家庄小程序开发_小程序开发公司_APP开发_网站制作-石家庄乘航网络科技有限公司 | ptc_浴霸_大巴_干衣机_呼吸机_毛巾架_电动车加热器-上海帕克 | 蜜蜂职场文库_职场求职面试实用的范文资料大全 | 仿古建筑设计-仿古建筑施工-仿古建筑公司-汉匠古建筑设计院 | 箱式破碎机_移动方箱式破碎机/价格/厂家_【华盛铭重工】 | 高光谱相机-近红外高光谱相机厂家-高光谱成像仪-SINESPEC 赛斯拜克 | H型钢切割机,相贯线切割机,数控钻床,数控平面钻,钢结构设备,槽钢切割机,角钢切割机,翻转机,拼焊矫一体机 | 河南道路标志牌_交通路标牌_交通标志牌厂家-郑州路畅交通 | 济南办公室装修-厂房装修-商铺装修-工装公司-山东鲁工装饰设计 | 招商帮-一站式网络营销服务|搜索营销推广|信息流推广|短视视频营销推广|互联网整合营销|网络推广代运营|招商帮企业招商好帮手 | 广东高华家具-公寓床|学生宿舍双层铁床厂家【质保十年】 | 防爆鼓风机-全风-宏丰鼓风机-上海梁瑾机电设备有限公司 | 注塑_注塑加工_注塑模具_塑胶模具_注塑加工厂家_深圳环科 | 建筑资质代办-建筑企业资质代办机构-建筑资质代办公司 | 南京租车,南京汽车租赁,南京包车,南京会议租车-南京七熹租车 | 组织研磨机-高通量组织研磨仪-实验室多样品组织研磨机-东方天净 传递窗_超净|洁净工作台_高效过滤器-传递窗厂家广州梓净公司 | 耐火浇注料价格-高强高铝-刚玉碳化硅耐磨浇注料厂家【直销】 | 东莞ERP软件_广州云ERP_中山ERP_台湾工厂erp系统-广东顺景软件科技有限公司 |