四層面擴(kuò)展PB級(jí)數(shù)據(jù)倉(cāng)庫(kù)
隨著PB級(jí)大小的數(shù)據(jù)庫(kù)即將來(lái)臨,企業(yè)的CIO也許會(huì)問(wèn)自己:“要如何應(yīng)用1024TB或者1PB 的數(shù)據(jù)?PB級(jí)的數(shù)據(jù)倉(cāng)庫(kù)真的具有投資的價(jià)值嗎?”數(shù)據(jù)倉(cāng)庫(kù)的成功設(shè)計(jì)與部署關(guān)鍵在于其可擴(kuò)展性,可擴(kuò)展性是企業(yè)運(yùn)用詳細(xì)且實(shí)時(shí)的商業(yè)智能制定有效決策并創(chuàng)造價(jià)值的關(guān)鍵指標(biāo)。
今天,企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)并不在于價(jià)格或產(chǎn)品的差異,而在于企業(yè)必須比競(jìng)爭(zhēng)對(duì)手掌握更詳細(xì)的客戶(hù)與潛在客戶(hù)的信息。要讓潛在客戶(hù)變成忠實(shí)顧客,關(guān)鍵在于必須在適當(dāng)?shù)臅r(shí)間,向客戶(hù)提供適當(dāng)?shù)漠a(chǎn)品、服務(wù)與信息。要做到這點(diǎn),企業(yè)必須先收集足夠且詳細(xì)的客戶(hù)信息,找出重要的模式,并且有適當(dāng)?shù)南到y(tǒng)將信息統(tǒng)一存儲(chǔ),以供日后實(shí)時(shí)運(yùn)用。
數(shù)據(jù)倉(cāng)庫(kù)讓企業(yè)有能力收集大量且詳細(xì)的資料(目前已經(jīng)是數(shù)百個(gè)TB,PB也指日可待),并讓企業(yè)能在幾秒內(nèi)就完成部署。要能快速搜尋并部署如此大量的數(shù)據(jù),系統(tǒng)的可擴(kuò)展性是重要的條件。
可擴(kuò)展性是在硬件配置上增加額外的處理能力,并在性能上呈線(xiàn)性的提升。換個(gè)角度來(lái)看,就是在不影響性能的前提下,提升硬件存儲(chǔ)與處理大量數(shù)據(jù)的能力(或是處理日漸復(fù)雜的查詢(xún)及日漸增加的多筆并發(fā)查詢(xún))。不良的設(shè)計(jì)或產(chǎn)品部署只會(huì)導(dǎo)致相反的結(jié)果,造成性能降低的速度快于數(shù)據(jù)量增加速度。
像SBC電信等公司的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)運(yùn)用了數(shù)百個(gè)頂級(jí)的英特爾處理器,數(shù)百個(gè)GB容量的可尋址內(nèi)存以及數(shù)百個(gè)TB磁盤(pán)空間,來(lái)支持一個(gè)單一的數(shù)據(jù)庫(kù)。像這樣系統(tǒng)的設(shè)計(jì)與部署應(yīng)該包含哪些成功因素呢?真正的可擴(kuò)展性應(yīng)該包含以下四個(gè)層面:
第一層面:處理大量的數(shù)據(jù)
企業(yè)每日運(yùn)營(yíng)會(huì)產(chǎn)生大量的數(shù)據(jù),而這些數(shù)據(jù)可用來(lái)支持重要的商業(yè)應(yīng)用與決策制定。除此之外,數(shù)據(jù)庫(kù)每MB的成本也不斷降低。然而,問(wèn)題依然存在:這么多的數(shù)據(jù)真的能增加企業(yè)價(jià)值,證明數(shù)據(jù)存儲(chǔ)真的值得投資嗎?
答案是肯定的!但前提是企業(yè)必須能有效地應(yīng)用所存儲(chǔ)的詳細(xì)數(shù)據(jù),從中找到策略與戰(zhàn)術(shù)商務(wù)查詢(xún)的答案?,F(xiàn)在假設(shè)有家跨國(guó)銀行要評(píng)定特定重要客戶(hù)的終生價(jià)值,如果這家銀行的數(shù)據(jù)庫(kù)仍然是用串行的數(shù)據(jù)處理方式,執(zhí)行這樣的查詢(xún)會(huì)拖垮整個(gè)系統(tǒng)。相反的,如果使用分治法(divide and conquer approach)來(lái)處理大量數(shù)據(jù),通過(guò)并行技術(shù)的部署以及非共享架構(gòu),則能夠快速且更可靠地找到重要商務(wù)問(wèn)題的答案。這就是可量化商業(yè)價(jià)值的第一步。
第二層面 :多筆并發(fā)查詢(xún)的挑戰(zhàn)
大企業(yè)需要同時(shí)處理數(shù)千筆來(lái)自企業(yè)內(nèi)部不同地點(diǎn)的查詢(xún),查詢(xún)的范圍包含長(zhǎng)期與短期的需求。以前面的跨國(guó)銀行為例,它可能需要在無(wú)數(shù)筆信用卡交易中偵測(cè)出欺詐行為,銀行經(jīng)理也許需要每月銷(xiāo)售數(shù)字的分析。像這樣的查詢(xún)不僅限于一處,而可能來(lái)自于不同區(qū)域數(shù)百個(gè)部門(mén),因此可清楚看出系統(tǒng)需要有處理多筆并發(fā)查詢(xún)的能力。要能同時(shí)處理多筆查詢(xún),數(shù)據(jù)庫(kù)首先必須具有精密的資源管理功能,在執(zhí)行查詢(xún)的時(shí)候,并行的數(shù)據(jù)庫(kù)必須能響應(yīng)不同的要求,并且掃描多個(gè)表格。
第三層面:維持復(fù)雜數(shù)據(jù)之間的商業(yè)關(guān)系
如何處理復(fù)雜度日漸提高的數(shù)據(jù),是大型數(shù)據(jù)庫(kù)將查詢(xún)最佳化的另一項(xiàng)挑戰(zhàn)。舉例來(lái)說(shuō),過(guò)去要建立一個(gè)簡(jiǎn)單的客戶(hù)視圖,可能牽涉到存儲(chǔ)于分散在數(shù)據(jù)集市中的三或四個(gè)相關(guān)聯(lián)的數(shù)據(jù)點(diǎn),現(xiàn)在則可能涉及到存儲(chǔ)于一個(gè)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)中的三、四十個(gè)相關(guān)的數(shù)據(jù)點(diǎn)。如果這個(gè)數(shù)據(jù)倉(cāng)庫(kù)只能產(chǎn)生龐大的表格,容納數(shù)十億筆分類(lèi)排列的交易數(shù)據(jù),全世界計(jì)算機(jī)的數(shù)據(jù)處理能力也無(wú)法建立一個(gè)有效的客戶(hù)視圖。即使數(shù)據(jù)倉(cāng)庫(kù)能將數(shù)據(jù)分成不同的表格,卻無(wú)法保存表格數(shù)據(jù)之間的商業(yè)關(guān)系,整個(gè)數(shù)據(jù)分析的功能都要打折扣,進(jìn)而影響系統(tǒng)的商業(yè)價(jià)值。因此,在數(shù)據(jù)倉(cāng)庫(kù)提升容量的同時(shí),必須要對(duì)分析型查詢(xún)創(chuàng)造具有超高效率的“檔案系統(tǒng)”,這個(gè)系統(tǒng)應(yīng)該要能包含多個(gè)表格,且保存各主題區(qū)域內(nèi)數(shù)據(jù)的商業(yè)關(guān)系,能輕松做到數(shù)據(jù)的相互關(guān)聯(lián)和擴(kuò)充。
第四層面:支持復(fù)雜的數(shù)據(jù)查詢(xún)與數(shù)據(jù)挖掘
最后,新一代的超級(jí)數(shù)據(jù)倉(cāng)庫(kù)所要面對(duì)的不僅是上個(gè)月鞋子銷(xiāo)售量有多少的查詢(xún),而是更加復(fù)雜的數(shù)據(jù)查詢(xún)與數(shù)據(jù)挖掘,例如客戶(hù)的終生價(jià)值,像這個(gè)問(wèn)題就牽涉了許多重要層面。數(shù)據(jù)倉(cāng)庫(kù)必須要能將各層面加以分析,然后決定一個(gè)高效收集所需信息的途徑。未來(lái)真正能提供PB價(jià)值的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該具備一個(gè)優(yōu)化器,以處理復(fù)雜的數(shù)據(jù)查詢(xún)與數(shù)據(jù)挖掘而不需要人力介入。