电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

MySQL 統計信息以及執行計劃預估方式初探

瀏覽:3日期:2023-10-16 13:17:13

數據庫中的統計信息在不同(精確)程度上描述了表中數據的分布情況,執行計劃通過統計信息獲取符合查詢條件的數據大小(行數),來指導執行計劃的生成。

在以Oracle和SQLServer為代表的商業數據庫,和以開源的PostgreSQL為代表的數據庫中,直方圖是統計信息的一個重要組成部分。

在生成執行計劃的時候,通過統計信息以及統計信息的直方圖來預估符合條件的數據行數,從而影響執行計劃的生成。

統計信息對執行計劃的影響,具體體現在:索引的查找與掃描,多表連接時表之間的驅動順序,表之間的JOIN方式,以及對sql查詢語句的資源分配等等。

但是在MySQL數據庫中,執行計劃的方式相對簡單,表之間的JOIN只有LOOPJOIN一種方式,且沒有并行執行計劃等,也就說通過預估結果集的行數對執行計劃的影響有限。

但是對于某些情況,依舊需要預估的方式來指導執行計劃的生成,

比如常見的多表連接時驅動順序,多數情況下是小表驅動大表(不完全一定)的方式來實現查詢的,因此MySQL中一樣需要預估來指導執行計劃的生成。

不過MySQL中的統計信息相對來說簡單很多,只有一個cardinality信息來預估索引的選擇性(show index from table),

索引統計信息不包含直方圖的信息,非索引列也不會生成直方圖,也就是無法通過直方圖來預估查詢數據的大小,mysql是通過其他方式來實現預估的。

對于有直方圖的數據來說,直方圖為預估提供了重要的依據,對于沒有直方圖的MySQL,執行計劃是如何預估的?預估的準確性有如何?

筆者在研究這個問題的時候,一開始也遇到不少疑惑的地方,還是看了博客園大神的問題才得以釋惑,后面會給出鏈接。

首先通過例子,通過一個非常簡單的查詢來觀察一個有意思的現象。

新建測試表,測試表如下:

create table test_statistics( id int auto_increment primary key, col2 varchar(200), col3 varchar(200), create_date datetime, index idx_create_date(create_date))ENGINE=InnoDB;

存儲過程通過循環插入數據,調用存儲過程生成100W行數據(100W行的數據,在實際應用中已經是一個非常小的數據量了),create_date字段上生成一個范圍之內的隨機時間。

CREATE DEFINER=`root`@`%` PROCEDURE `p_insert_test_data`( IN `loop_count` INT)BEGIN declare i int; while (loop_count>0) do insert into test_statistics(col2,col3,create_date) values (uuid(),uuid(), DATE_ADD(sysdate(), INTERVAL -rand()*2400 hour));set loop_count = loop_count -1; end while;END

寫入測試數據完成之后,進行如下兩個查詢做測試。

簡單地使用select count(1)的來做測試

首先看第一個查詢:查詢的時間范圍是: where create_date>’2017-11-01 12:00:00′ and create_date<’2017-11-01 16:00:00′

可以發現:explain預估的行數,與實際行數完全一致。

MySQL 統計信息以及執行計劃預估方式初探

繼續第二個查詢,擴大查詢的時間范圍,查詢的時間范圍是:where create_date>’2017-11-01 12:00:00′ and create_date<’2017-11-03 16:00:00′

可以發現,此時的explain執行計劃的預估,與實際行數出現了嚴重的偏差

MySQL 統計信息以及執行計劃預估方式初探

為什么第一個查詢做到了精確的預估,而第二個查詢的預估出現嚴重的偏差?

這一點要從預估的計算方式入手來說。

首先,第一個查詢和第二個查詢,唯一的不同是,第二個查詢的時間范圍放寬了,為什么時間放寬之后,執行計劃的預估的準確性就大大下降?

既然是“預估”,就一定是存在誤差,只不過是誤差大與小的問題,誤差的大下與具體的預估的方式有關。

任何預估的實現,都是以一種在不同程度上“以偏概全”的方式進行的,比如SQL Server是以對相關數據page的通過某種百分比來取樣,然后存儲在直方圖中做預估依據的。

當然,這種“以偏概全”的預估方式,是在性能與精確度之間權衡折中的結果.

在考慮收集統計信息對性能和資源影響的前提下,預估策略各種方式或者代價盡可能減少對預估產生誤差的因素,關于直方圖的生成這里不細說。

對于沒有直方圖的MySQL,它是是在執行的時候,通過掃描符合查詢條件的部分數據頁后做預估統計的.

MySQL是在查詢的時候,直接對查詢條件范圍內的數據頁,取一定比例樣本做統計之后預估的,但是這里取樣的數據頁面有一定的限制,不會無限制取樣做統計預估。

如果符合條件的數據頁超出了預定的范圍,則會取部分頁進行預估,而不是全部頁(為什么不是全部樣做統計預估,原因就不用說了吧)。

比如下圖中,不管是聚集索引還是二級索引(非聚集索引),理論上說都是一顆平衡樹,暫不探究其細節。

假如符合條件的數據是一個范圍,位于兩個矩形框之間。矩形框分別是范圍的左右節點,中間可以想象成多個葉子節點

參考zhanlijun大神的文章 ,

上述參考鏈接中得知,MySQL在5.5之后的預估原理如下:

其預估掃描的數據頁分別是前后兩個數據頁,以及從左邊開始連續8個數據頁,得到平均每個page的行數,根據總的page個數預估出這個范圍的數據行數。

具體說,也就是取左右兩個葉子節點,以及從左葉子節點開始連續8個頁的數據做統計,中間可能有多個數據頁,但也會被忽略,這就是上面提到的“以偏概全”的方式。

這里面就存在一個最明顯的問題,也就是符合條件的數據頁面與預估時候采集的頁面的大小關系。

如果符合條件的數據頁的分布少于10個,當然在預估的時候,會全部掃描這些page,當然預估是完全精確的,這也是第一個查詢執行計劃預估的實際行數完全不一致的原因。

如果符合條件的數據頁的分布大于10個,當然在預估的時候,會部分掃描這些page,預估的誤差情況就此產生,這也是第二個查詢執行計劃預估的實際行數差異較大的原因。

MySQL 統計信息以及執行計劃預估方式初探

當然MySQL的每個版本可能都有所改進或者差異,筆者并沒有從源碼中找到具體的算法,當前測試的是5.7.20版本。

但目前仍不清楚,

1,在create_date字段上,時間是按照DATE_ADD(sysdate(), INTERVAL -rand()*2400 hour)生成的,從整體分布看,基本按照時間均勻分布的.

理論上根據這種方式推到,得到的預估結果偏差應該不會很大,但尚不清楚為什么預估與實際存在如此大的差異。

2,嘗試找到預估值從精確到產生差異的臨界點,通過查詢實際行數,根據key_len的值以及B樹索引的存儲原理(二級索引葉子節點存儲的二級索引的key值+聚集索引的key值).

理論上計算出來當前查詢一個大概的取樣的page個數,發現這個值預報理論上的10個page差異較大,可能是推到方式有問題,或者是MySQL預估本身有一些不知道的細節問題。

3,沒有詳細翻MySQL的源碼,尚未找到具體的實現細節。

對于有直方圖的數據庫來說,直方圖的信息也不是沒有代價,或者是萬能的,直方圖也有直方圖的局限性,這里暫不表述。

對于尚沒有直方圖的MySQL數據庫來說,其預估原理是每次查詢的時候進行對相關的數據頁面進行采樣預估的,而不是從直方圖中獲取到預估信息的,這是一個很消耗性能的操作。

詳情參考: http://www.orczhou.com/index.php/2013/04/how-mysql-choose-index-in-a-join/

這可能會導致MySQL不適合做較大數據量或者較為復雜的JOIN操作,當然這也取決于具體的業務設計方案以及對數據的依賴程度,或者主觀上的查詢提示操作。

說這句話是冒著被MySQL的大神以及粉絲們怒噴的風險的。

關于MySQL的預估的知識點,搜索到的文章并不是很多,也拘泥于個人的認識有限,也希望對這方面有關注的大神多多指點。

據說MySQL在8.0之后的版本中會加入直方圖信息,以及其他JOIN方式(除了LOOP JOIN),這可能對性能上有比較大的幫助。

參考鏈接 https://www.cnblogs.com/LBSer/p/3333881.html http://www.orczhou.com/index.php/2013/04/how-mysql-choose-index-in-a-join/

來自:http://www.importnew.com/28075.html

標簽: MySQL 數據庫
相關文章:
主站蜘蛛池模板: 储能预警-储能消防系统-电池舱自动灭火装置-四川千页科技股份有限公司官网 | 1000帧高速摄像机|工业高速相机厂家|科天健光电技术 | EFM 022静电场测试仪-套帽式风量计-静电平板监测器-上海民仪电子有限公司 | 北京京云律师事务所 | 螺杆真空泵_耐腐蚀螺杆真空泵_水环真空泵_真空机组_烟台真空泵-烟台斯凯威真空 | 芜湖厨房设备_芜湖商用厨具_芜湖厨具设备-芜湖鑫环厨具有限公司 控显科技 - 工控一体机、工业显示器、工业平板电脑源头厂家 | 成人纸尿裤,成人尿不湿,成人护理垫-山东康舜日用品有限公司 | 湖南印刷厂|长沙印刷公司|画册印刷|挂历印刷|台历印刷|杂志印刷-乐成印刷 | 喷涂流水线,涂装流水线,喷漆流水线-山东天意设备科技有限公司 | 过跨车_过跨电瓶车_过跨转运车_横移电动平车_厂区转运车_无轨转运车 | 视频直播 -摄影摄像-视频拍摄-直播分发 | 企业管理培训,企业培训公开课,企业内训课程,企业培训师 - 名课堂企业管理培训网 | 办公室家具公司_办公家具品牌厂家_森拉堡办公家具【官网】 | 选矿设备,选矿生产线,选矿工艺,选矿技术-昆明昆重矿山机械 | 微型驱动系统解决方案-深圳市兆威机电股份有限公司 | 北京发电车出租-发电机租赁公司-柴油发电机厂家 - 北京明旺盛安机电设备有限公司 | 超细|超微气流粉碎机|气流磨|气流分级机|粉体改性机|磨粉机|粉碎设备-山东埃尔派粉体科技 | 北京中创汇安科贸有限公司 | 退火炉,燃气退火炉,燃气热处理炉生产厂家-丹阳市丰泰工业炉有限公司 | 家乐事净水器官网-净水器厂家「官方」 | R507制冷剂,R22/R152a制冷剂厂家-浙江瀚凯制冷科技有限公司 | 抓斗式清污机|螺杆式|卷扬式启闭机|底轴驱动钢坝|污水处理闸门-方源水利机械 | 干粉砂浆设备-干粉砂浆生产线-干混-石膏-保温砂浆设备生产线-腻子粉设备厂家-国恒机械 | 泰安办公家具-泰安派格办公用品有限公司 | 棉服定制/厂家/公司_棉袄订做/价格/费用-北京圣达信棉服 | 苏州伊诺尔拆除公司_专业酒店厂房拆除_商场学校拆除_办公楼房屋拆除_家工装拆除拆旧 | 304不锈钢无缝管_不锈钢管厂家 - 隆达钢业集团有限公司 | 技德应用| 长江船运_国内海运_内贸船运_大件海运|运输_船舶运输价格_钢材船运_内河运输_风电甲板船_游艇运输_航运货代电话_上海交航船运 | 盘扣式脚手架-附着式升降脚手架-移动脚手架,专ye承包服务商 - 苏州安踏脚手架工程有限公司 | 楼承板-开闭口楼承板-无锡海逵楼承板 | 柴油机_柴油发电机_厂家_品牌-江苏卡得城仕发动机有限公司 | 陶瓷砂磨机,盘式砂磨机,棒销式砂磨机-无锡市少宏粉体科技有限公司 | 上海皓越真空设备有限公司官网-真空炉-真空热压烧结炉-sps放电等离子烧结炉 | 温州中研白癜风专科_温州治疗白癜风_温州治疗白癜风医院哪家好_温州哪里治疗白癜风 | 高楼航空障碍灯厂家哪家好_航空障碍灯厂家_广州北斗星障碍灯有限公司 | 金属雕花板_厂家直销_价格低-山东慧诚建筑材料有限公司 | 电动高尔夫球车|电动观光车|电动巡逻车|电动越野车厂家-绿友机械集团股份有限公司 | 捆扎机_气动捆扎机_钢带捆扎机-沈阳海鹞气动钢带捆扎机公司 | 标准光源箱|对色灯箱|色差仪|光泽度仪|涂层测厚仪_HRC大品牌生产厂家 | 郑州宣传片拍摄-TVC广告片拍摄-微电影短视频制作-河南优柿文化传媒有限公司 |