帶你深入了解用于數(shù)據(jù)倉庫的IBM DB2產(chǎn)品
OLTP 系統(tǒng)可能是一個 Web 訂購系統(tǒng),可以通過 Web 執(zhí)行交易(比如購買產(chǎn)品)。這些應用程序的特征是進行細粒度的單行查詢,可能更新少量的記錄。與之相反,BI 類型的查詢執(zhí)行大型的表掃描,因為它們嘗試在大量數(shù)據(jù)中尋找數(shù)據(jù)模式。如果要求您匯總西部地區(qū)的所有銷售,這就是倉庫查詢。
簡單地說,OLTP 是簡短的查詢,而 BI 是對大量數(shù)據(jù)進行搜索和匯總以便進行報告。當然,實際情況不只如此,但是現(xiàn)在您知道這么多就夠了。
包含操作性數(shù)據(jù) (運行企業(yè)的日常交易的數(shù)據(jù))的系統(tǒng)是 OLTP 系統(tǒng)。但是,這些系統(tǒng)包含企業(yè)分析師用來了解企業(yè)運營情況的信息。例如,他們可以查看某一時間段內(nèi)在某個地區(qū)銷售出了哪些產(chǎn)品。這有助于識別異常情況或?qū)ξ磥淼匿N售進行規(guī)劃。
但是,如果分析師直接訪問操作性(OLTP)數(shù)據(jù)來進行報告和其他 BI 活動,就會有幾個問題:
他們可能沒有查詢操作性數(shù)據(jù)庫的專業(yè)經(jīng)驗。一般來說,有查詢操作性數(shù)據(jù)庫的專業(yè)經(jīng)驗的程序員會負責全職地維護數(shù)據(jù)庫及其應用程序。
性能對于許多操作性數(shù)據(jù)庫來說非常重要,比如用來處理銀行事務的數(shù)據(jù)庫。這些系統(tǒng)不能應付用戶對操作性數(shù)據(jù)存儲進行特殊的查詢。例如,考慮在線支付帳單的情況。在選擇 OK 時,處理支付常常只需要花費幾秒。現(xiàn)在,假設一個銀行分析師試圖查明某個現(xiàn)有的顧客群花費了多少錢。這個分析師運行一個非常復雜的查詢,導致您的銀行事務現(xiàn)在要花費 30 秒才能完成!顯然,這樣的性能是不可接受的(這可不是分析師希望的結(jié)果)。因此,操作性數(shù)據(jù)存儲和報告性數(shù)據(jù)存儲(包括 OLAP 數(shù)據(jù)庫)一般是分開的。
但是,在過去幾年里,報告性數(shù)據(jù)存儲已經(jīng)傾向于變得具有偽操作性和及時性。這種存儲稱為操作數(shù)據(jù)存儲(ODS)或活躍數(shù)據(jù) 倉庫。例如,考慮電信行業(yè)的情況。ODS 在這些電信運營公司中很流行,因為他們需要盡可能快地識別出惡意欠費的情況。DB2 是少數(shù)幾種同時適合操作性和報告性工作負載的數(shù)據(jù)庫。
操作性數(shù)據(jù)一般沒有采用最適合業(yè)務分析師使用的格式。與原始的事務數(shù)據(jù)相比,按照產(chǎn)品、地區(qū)和季節(jié)匯總的銷售數(shù)據(jù)對于分析師要有用得多。
數(shù)據(jù)倉庫 解決了這些問題。在數(shù)據(jù)倉庫中可以存儲信息性數(shù)據(jù) —— 這些數(shù)據(jù)是從操作性數(shù)據(jù)中提取出來的,然后為幫助最終用戶決策進行了轉(zhuǎn)換和清理。例如,數(shù)據(jù)倉庫工具可能會復制操作性數(shù)據(jù)庫中的所有銷售數(shù)據(jù),執(zhí)行計算來匯總數(shù)據(jù),并將匯總的數(shù)據(jù)寫入一個與操作性數(shù)據(jù)庫分開的數(shù)據(jù)庫中。最終用戶可以查詢這個獨立的數(shù)據(jù)庫(倉庫),而不會影響 OLTP 數(shù)據(jù)庫。
用于數(shù)據(jù)倉庫的DB2產(chǎn)品
DB2 是為幫助實現(xiàn)業(yè)務智能化而設計的。DB2 不但是世界上可伸縮性最好的數(shù)據(jù)庫,它還有一套健壯的業(yè)務智能化功能。DB2 有兩個 Data Warehouse Editions(DB2 DWE),以低廉的價格提供一整套數(shù)據(jù)倉庫工具。這些工具的一部分可以在 DB2 DWE 之外單獨購買,其他工具只能通過 DB2 DWE 包獲得。DB2 DWE 分為 Base 和 Enterprise 兩個版本。
DB2 DWE 是在強大的 DB2 Enterprise 9 產(chǎn)品上構(gòu)建的并擴展了它的功能,提高了數(shù)據(jù)倉庫和分析特性的性能和易用性,幫助進行實時探察和決策的用戶獲得需要的信息。DB2 DWE 特性包括用于倉庫管理、分析應用程序開發(fā)、OLAP、數(shù)據(jù)挖掘以及超大型數(shù)據(jù)庫(VLDB)查詢和資源管理的工具。
DB2 DW Enterprise Edition 中包含的產(chǎn)品有:
DB2 Enterprise
DB2 Data Partitioning特性
這個特性允許在單一服務器上或者跨服務器集群對數(shù)據(jù)庫進行分區(qū)。DB2 Data Partitioning 為企業(yè)提供了支持超大型數(shù)據(jù)庫(這是數(shù)據(jù)倉庫環(huán)境中的常見情況)所需的可伸縮性,并可以處理涉及復雜工作負載和高并行性的管理任務。這個特性可以在 DB2 DWE 產(chǎn)品之外單獨購買。
DB2 Data Warehouse Edition Design Studio
DWE Design Studio 是通過包含和擴展一些基于 Eclipse 的 Rational Data Architect(RDA)建模功能形成的,這是一個針對 BI 解決方案的開發(fā)環(huán)境。Design Studio 將以下任務集成在一個統(tǒng)一的圖形化環(huán)境中:物理數(shù)據(jù)建模(RDA)、DB2 基于 SQL 的倉庫構(gòu)造、OLAP 多維數(shù)據(jù)集建模和數(shù)據(jù)挖掘建模。
這個設計工具使設計人員能夠連接源數(shù)據(jù)庫和目標數(shù)據(jù)庫、對物理數(shù)據(jù)模型進行反向工程、構(gòu)建 DB2 基于 SQL 的數(shù)據(jù)流和挖掘流、設置 OLAP 多維數(shù)據(jù)集以及準備將應用程序部署到運行時系統(tǒng)上。因為它是基于 Eclipse 框架的,這個工具看起來與 DB2 Developer Workbench 相似。
SQL Warehousing Tool
為了支持端到端業(yè)務智能化解決方案,DB2 DWE 提供了用于倉庫構(gòu)建和維護的基礎設施,包括用于應用程序設計、部署、執(zhí)行和管理的工具。
SQL Warehousing Tool 解決了 DB2 數(shù)據(jù)倉庫環(huán)境中的數(shù)據(jù)集成問題。用戶可以對高層操作的邏輯流進行建模,這會產(chǎn)生組織在執(zhí)行計劃中的代碼單元。這個工具提供一個元數(shù)據(jù)系統(tǒng)和 IDE 來創(chuàng)建、編輯和管理這些流,還提供一個能夠理解源圖并將它轉(zhuǎn)換為優(yōu)化的 SQL 代碼的代碼生成系統(tǒng)。當流的開發(fā)完成時,這個系統(tǒng)的第二個部分就要發(fā)揮作用了:將生成的代碼以及相關聯(lián)的工件打包成一個數(shù)據(jù)倉庫應用程序,這個應用程序可以部署在各種目標運行時系統(tǒng)中。
數(shù)據(jù)倉庫應用程序開發(fā)人員和架構(gòu)師可以使用 Design Studio 來創(chuàng)建:
源和目標數(shù)據(jù)庫和表的物理數(shù)據(jù)模型。
代表數(shù)據(jù)通過轉(zhuǎn)換步驟進入目標數(shù)據(jù)庫中的轉(zhuǎn)移過程的數(shù)據(jù)流。例如:
1.SQL 數(shù)據(jù)流,它們使用 DB2 倉庫構(gòu)建操作的 SQL 處理功能對來自關系表、平面文件等來源的數(shù)據(jù)進行處理
2.挖掘流,它們將關鍵的數(shù)據(jù)挖掘操作集成到基于 SQL 的模型中
3.將可選的 DataStage ETL 作業(yè)作為子流集成的 SQL 數(shù)據(jù)流
控制流,它們決定一組相關數(shù)據(jù)流的次序并為執(zhí)行這些數(shù)據(jù)流定義處理規(guī)則。
部署包,它們包含構(gòu)成完整應用程序的所有文件和參數(shù),可以進行安裝和執(zhí)行。
可以使用 DB2 Data Warehouse Edition 作為運行引擎,使用 IBM WebSphere® Application Server 軟件提供控制和調(diào)度功能,從而執(zhí)行和管理控制流。WebSphere Application Server 為數(shù)據(jù)倉庫應用程序提供運行時部署環(huán)境。管理員可以從 Web 客戶計算機運行基于瀏覽器的 Data Warehouse Edition Administration Console 來訪問 WebSphere。
DB2 Data Warehouse Edition Administration Console
DB2 DWE Administration Console 是一個用于管理和監(jiān)視 BI 應用程序的基于 Web 的應用程序。安裝在 WebSphere Application Server 上之后,DWE Administration Console 使用 Web 客戶機訪問和部署在 DWE 中建模和設計的數(shù)據(jù)倉庫應用程序。這個控制臺使用 WebSphere 安全模型,使用戶能夠以管理員、經(jīng)理和操作員的角色從統(tǒng)一的控制臺頁面執(zhí)行各種管理任務。這個控制臺支持 5 類功能:
DWE Common:創(chuàng)建數(shù)據(jù)源并為 OLAP 和挖掘啟用數(shù)據(jù)庫。
SQL Warehousing:部署、調(diào)度和監(jiān)視在 Design Studio 中創(chuàng)建的數(shù)據(jù)倉庫應用程序。訪問與進程相關聯(lián)的統(tǒng)計數(shù)據(jù)和日志并排除運行時故障。
OLAP:導入和導出多維數(shù)據(jù)集模型、使用 OLAP 優(yōu)化器并顯示多維數(shù)據(jù)集模型的元數(shù)據(jù)內(nèi)容,比如它的表、聯(lián)結(jié)、度量和屬性。
Mining:查看、導出、更新和刪除挖掘數(shù)據(jù)庫中的模型。還可以將挖掘模型導入到數(shù)據(jù)庫中以及將模型裝載進緩存中。這個挖掘可視化工具可以提供挖掘模型的圖形化表示。
Alphablox:啟動本機的 Alphablox Administration 工具。
DB2 Data Warehouse Edition OLAP Acceleration
以前稱為 DB2 Cube Views。通過使用 DWE Design Studio 和 Administration Console 中的 OLAP 功能,用戶可以創(chuàng)建、操作、優(yōu)化、部署、導入或?qū)С龆嗑S數(shù)據(jù)集模型、多維數(shù)據(jù)集和在 OLAP 分析中使用的其他元數(shù)據(jù)對象。DWE Design Studio 提供了容易使用的向?qū)Ш痛翱趤韼椭脩籼幚?OLAP 元數(shù)據(jù)。
DB2 Data Warehouse Edition Data Mining
通過使用 DB2 DWE 數(shù)據(jù)挖掘特性,可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的關系,而不需要將數(shù)據(jù)導出到特殊的數(shù)據(jù)挖掘計算機上或者借助于少量數(shù)據(jù)樣本。DB2 DWE 為一些建模操作提供了 DB2 擴展:市場籃分析、市場分割、分析等等。
DB2 Data Warehouse Edition Data Visualization Feature
用來顯示創(chuàng)建的挖掘模型。
DB2 Alphablox analytics
DB2 Alphablox 提供了快速創(chuàng)建基于 Web 的定制應用程序的能力,使應用程序能夠適應公司的基礎設施并能夠為公司防火墻內(nèi)外的用戶服務。用 DB2 Alphablox 構(gòu)建的應用程序在標準 Web 瀏覽器中運行,允許從客戶計算機執(zhí)行實時的高度可定制的多維分析。DB2 Alphablox 與 DWE Cube Views 緊密集成,DWE Cube Views 提供常用的元數(shù)據(jù)并為 Alphablox 多維分析進行數(shù)據(jù)庫優(yōu)化。
DB2 Data Warehouse Edition Query Workload Management Feature
DB2 Query Patroller 是 DWE 的查詢工作負載管理特性。這個產(chǎn)品也可以在 DB2 DWE 包之外單獨購買。DB2 Query Patroller 是一個強大的查詢管理系統(tǒng),可以使用它以下面的方式前瞻性地動態(tài)控制 DB2 數(shù)據(jù)庫的查詢流:
為不同規(guī)模的查詢定義不同的查詢類,從而更好地在查詢之間分享系統(tǒng)資源并防止較小的查詢被大型查詢阻斷。
給某些用戶提交的查詢設置高優(yōu)先級,讓這些查詢可以更早地運行。
自動地識別大型查詢,這樣就可以取消它們或者將它們調(diào)度到低谷時間段運行。
跟蹤和取消長時間運行的查詢。
DB2 Query Patroller 的特性使您能夠控制數(shù)據(jù)庫的查詢負載,讓小型查詢和高優(yōu)先級的查詢可以快速運行,并讓系統(tǒng)資源得到高效利用。
還可以收集和分析關于已經(jīng)完成的查詢的信息,從而判斷查詢、高負載用戶以及常用表和索引中的趨勢。管理員可以使用 DB2 Query Patroller:
在系統(tǒng)級和用戶級設置資源使用策略。
通過取消或重新調(diào)度那些影響數(shù)據(jù)庫性能的查詢,動態(tài)地監(jiān)視和管理系統(tǒng)的資源使用。
生成有助于識別數(shù)據(jù)庫使用情況趨勢的報告,比如訪問了哪些對象以及哪些用戶和用戶組產(chǎn)生的工作負載最大。
查詢提交者可以使用 DB2 Query Patroller 監(jiān)視他們提交的查詢;存儲查詢結(jié)果供以后檢索或重用,這實際上可以避免提交重復的查詢;設置各種首選項來優(yōu)化他們的查詢提交,比如在查詢完成時是否希望接收電子郵件通知。
