數(shù)據(jù)建模是一門復雜的科學,它涉及組織數(shù)據(jù)以滿足業(yè)務流程的需求。它要求設計邏輯關系,以便數(shù)據(jù)能夠相互關聯(lián)并支持業(yè)務。然后將邏輯設計轉換為物理模型,其中包括存儲設備、數(shù)據(jù)庫和存儲數(shù)據(jù)的文件。
在以往,企業(yè)一直使用SQL等關系數(shù)據(jù)庫技術來開發(fā)數(shù)據(jù)模型,因為它特別適合靈活地將數(shù)據(jù)集和數(shù)據(jù)類型鏈接在一起,以支持業(yè)務流程的信息需求。
不幸的是,大數(shù)據(jù)(現(xiàn)在占管理數(shù)據(jù)的很大一部分)不能在關系數(shù)據(jù)庫上運行。它在NoSQL等非關系數(shù)據(jù)庫上運行。這讓人們相信不需要創(chuàng)建大數(shù)據(jù)模型。問題是,如果想充分利用大數(shù)據(jù)的潛力,確實需要對其進行數(shù)據(jù)建模。以下是以可訪問且有效的方式建模大數(shù)據(jù)的6個技巧:
1.不要試圖將傳統(tǒng)的建模技術強加于大數(shù)據(jù)
傳統(tǒng)的固定記錄數(shù)據(jù)在增長過程中是穩(wěn)定和可預測的。這使得大數(shù)據(jù)建模相對容易。相比之下,大數(shù)據(jù)的指數(shù)級增長是不可預測的,其無數(shù)形式和來源也是不可預測的。當網(wǎng)站考慮對大數(shù)據(jù)建模時,建模工作應該集中在構建開放和彈性的數(shù)據(jù)接口上,因為可能永遠不知道什么時候會出現(xiàn)新的數(shù)據(jù)源或數(shù)據(jù)形式。在傳統(tǒng)的固定記錄數(shù)據(jù)世界中,這并不是優(yōu)先考慮的問題。
2.設計系統(tǒng)而不是模型
在傳統(tǒng)數(shù)據(jù)領域中,關系數(shù)據(jù)庫模型可以涵蓋業(yè)務信息支持所需的數(shù)據(jù)之間的大多數(shù)關系和鏈接。大數(shù)據(jù)則不是這樣,它可能沒有數(shù)據(jù)庫,或者可能使用NoSQL這樣的數(shù)據(jù)庫,而后者不需要數(shù)據(jù)庫模型。
正因為如此,大數(shù)據(jù)模型應該建立在系統(tǒng)上,而不是數(shù)據(jù)庫上。大數(shù)據(jù)模型應該包含的系統(tǒng)組件包括業(yè)務信息需求、企業(yè)治理和安全、用于數(shù)據(jù)的物理存儲、所有類型數(shù)據(jù)的集成和開放接口,以及處理各種不同數(shù)據(jù)類型的能力。
3.尋找大數(shù)據(jù)建模工具
如今有許多支持Hadoop的商業(yè)數(shù)據(jù)建模工具,以及像Tableau這樣的大數(shù)據(jù)報告軟件。在考慮大數(shù)據(jù)工具和方法時,IT決策者應該將為大數(shù)據(jù)構建數(shù)據(jù)模型的能力作為他們的需求之一。
4.關注對企業(yè)業(yè)務至關重要的數(shù)據(jù)
每天都有大量的數(shù)據(jù)涌入企業(yè),其中很多都是無關緊要的數(shù)據(jù)。創(chuàng)建包含所有數(shù)據(jù)的模型是沒有意義的。更好的方法是識別對企業(yè)至關重要的大數(shù)據(jù),并僅對這些數(shù)據(jù)建模。
5.交付高質(zhì)量的數(shù)據(jù)
如果企業(yè)專注于為他們的數(shù)據(jù)開發(fā)完善的定義和詳盡的元數(shù)據(jù)(描述數(shù)據(jù)的來源、目的等),就可以為大數(shù)據(jù)建立高級的數(shù)據(jù)模型和關系。對數(shù)據(jù)了解得越多,就越能將其正確地放入支持業(yè)務的數(shù)據(jù)模型中。
6.尋找對數(shù)據(jù)的關鍵切入點
當今大數(shù)據(jù)中最常用的向量之一是地理位置。根據(jù)企業(yè)的業(yè)務和所在的行業(yè)的不同,還有其他用戶想要的大數(shù)據(jù)通用密鑰。越能識別數(shù)據(jù)中的這些常見入口點,就越能更好地設計支持企業(yè)關鍵信息訪問路徑的數(shù)據(jù)模型。
注:文章來源于網(wǎng)絡,如有侵權,請聯(lián)系刪除