云計算與大數(shù)據環(huán)境下的數(shù)據集成 |
發(fā)布時間: 2012/9/5 18:28:59 |
云計算與大數(shù)據環(huán)境下的數(shù)據集成
隨著企業(yè)業(yè)務的增長,伴隨企業(yè)各類應用系統(tǒng)逐步啟用,結果導致數(shù)據量幾何級數(shù)的增長,傳統(tǒng)的整合數(shù)據的方式正在受到挑戰(zhàn),于此同時,云計算及網上應用在企業(yè)內部產生各類結構化、非結構化數(shù)據,這些數(shù)據所蘊含的信息(尤其是非結構化數(shù)據)是傳統(tǒng)分析工具無法捕捉的。本文主要闡述在企業(yè)信息化過程中,數(shù)據整合的能力建設所需要考慮的一些關鍵問題。 從根本來說,企業(yè)信息化的目的是為了降低溝通成本、提高工作效率、增強科學決策能力,從手段上是將分散、無序、無時效的數(shù)據變成有序、可分享、有時效、可追溯的數(shù)據,前者數(shù)據過渡到后者數(shù)據,就是無信息(或不可信信息)變成可信信息的過程。數(shù)據蘊含的信息有兩類:1、交易信息,即某一條/或幾條數(shù)據本身所包含的信息;2、統(tǒng)計信息,即數(shù)據集合所蘊含的規(guī)律性信息。下圖表現(xiàn)了交易數(shù)據與統(tǒng)計數(shù)據的關系和傳統(tǒng)架構方法,即ETL模型。 傳統(tǒng)整合基本上是基于ETL模式,即從企業(yè)內部的信息系統(tǒng)中抽。‥xtract),然后根據預先定義的方式轉換(Transform),最后載入到企業(yè)的數(shù)據倉庫(Load),大部分企業(yè)的ETL程序定義在每天晚上運行,這類的方法有以下問題: 1、數(shù)據倉庫的數(shù)據不是實時的信息 2、如果內部信息系統(tǒng)數(shù)據量很大,ETL處理時間不可能按時完成。 3、數(shù)據倉庫的信息無法快速反饋數(shù)據到基層處理商務的人員,圖示1中紅色打叉的部分。 4、ERP本身在多年數(shù)據積累后,事務處理與訂單查詢都會變慢。 5、無法處理大數(shù)據,ETL的整個數(shù)據處理過程都是建立在已知/預定義的模型之上的,也就是ETL無法發(fā)掘到數(shù)據集蘊含的未知規(guī)律。 a)結構化大數(shù)據,除上述第2點外,針對大數(shù)據的深度挖據分析能力(非簡單根據預先設計的模型做數(shù)據轉換),傳統(tǒng)的系統(tǒng)架構中是無法完成的。 b)非結構化、半結構化大數(shù)據。非架構化數(shù)據從本質上來講,是企業(yè)無法預先定義規(guī)則的數(shù)據類型,據IDC的一項調查報告中指出:企業(yè)中80%的數(shù)據都是非結構化數(shù)據,這些數(shù)據每年都按指數(shù)增長60%.傳統(tǒng)的方式是無法計算統(tǒng)計非結構化大數(shù)據包含的新類型統(tǒng)計信息。 根據上述問題,企業(yè)信息系統(tǒng)的數(shù)據整合的目標需要滿足以下條件: 1、提高數(shù)據的質量 低質量的數(shù)據帶來的問題: 1.1統(tǒng)計數(shù)據會有誤導,誤導的數(shù)據直接結果很可能是企業(yè)戰(zhàn)略決策錯誤。 1.2基層人員工作效率低下。由于基層人員不信任數(shù)據,就會產生額外的工作去核對并驗證。由于數(shù)據不準確也會產生更多的操作性錯誤,如:發(fā)貨地址錯誤,貨款核對產生歧義等。這些都會帶來大量的額外工作,根據2/8原理,80%的額外工作都緣于20%的錯誤。 1.3無法根據信息系統(tǒng)記錄做更多的分析統(tǒng)計,如6 Sigma類似的項目將無數(shù)據基礎,項目無法推進。 2、數(shù)據安全:由于各類中間件的應用、云計算集成環(huán)境的廣泛普及,數(shù)據源需要提供更廣泛的數(shù)據輸出的能力,與此同時,數(shù)據保護能力需要更加完善,傳統(tǒng)在應用軟件層面的保護方式是無法滿足此類需求的。保護數(shù)據需要考慮:傳輸加密和身份認證。 3、與“云計算”的集成能力:在云計算環(huán)境里,無論是基礎數(shù)據還是交易數(shù)據,將不僅限于某一種應用系統(tǒng)中使用,甚至數(shù)據很可能需要跨越公司的防火墻,與外部的云計算環(huán)境集成。 4、大數(shù)據能力:舉個典型的例子,企業(yè)使用web日志、社交媒體(social media,如微博)數(shù)據分析大量客戶的偏好,同時使用企業(yè)與客戶已經成交的交易記錄,建立更好的預測模型,更直接有效的市場推廣或更好的客戶體驗。而上述的web日志和社交媒體的數(shù)據都是非結構化的大數(shù)據。 5、高性能/滿足實時的要求:舉個典型的貿易公司為例,該公司需要根據客戶以往的信用記錄決定是否訂貨或發(fā)貨,如果沒有實時統(tǒng)計能力,此類的商業(yè)模型在執(zhí)行起來會困難重重。越來越多的企業(yè)希望將部分的決策過程下放到執(zhí)行層面的基層,基層的決策需要實時的統(tǒng)計結果、可追溯的決策結果。 本文出自:億恩科技【prubsntakaful.com】 |