大數據如何獲取真實 |
發(fā)布時間: 2012/9/16 23:11:39 |
企業(yè)經營大數據,往往只是包括收集大量的數據,然后尋找其模式和對其進行分析,這些是由廉價的存儲,豐富的傳感器和新的軟件所導致的。在不到十年的時間里,這已經成為了一個價值數十億美元的產業(yè)。在這樣的一個大數據增長飛速的時期,我們很容易忽略該行業(yè)曾經在之前已探明的相關標準。直到這時,許多客戶可能只是在浪費了很多的錢。 而其實,企業(yè)最重要的工作應該是要針對解決一些非常困難的問題方面訓練一批核心工作人員,如先進的統(tǒng)計軟件,以確保企業(yè)數據的質量和運營效率。在使用數據的過程中可能需要用到各種各樣廣泛的知識、以及各種新的管理方法,更好的工具讀取企業(yè)和個人信息的隱私保障。 正在發(fā)生的數量龐大的任務是一個很好的指標,即使是炒作,大數據確實是一個大問題。不久前,一批技術人員聚集在由美國加州大學伯克利分校主辦的一個名為iSchool的論壇上,談論有關這些工作的方式。他們談論到目前為止的進展情況,并討論了一些好的想法和以及企業(yè)下一步的發(fā)展方向。 在某些方面,大數據的管理是涉及到各種奇怪的新的數據,如從移動電話到社會媒體的更新。這在最初很難對其進行準確的歸類,而且其可以許多不同運用,從廣告到流量管理。所謂非結構化數據庫的選擇目前在Hadoop已經很清楚了。 不同來源的數據質量仍然是一個嚴重的問題,需要說服各種企業(yè)和組織讓別人看到數據,可能創(chuàng)造更有價值的共同算法。“我已經試圖為了能夠看到這些數據進行付費,但企業(yè)更容易決定不分享這些數據。”一家旨在持有大量在線數據的Factual公司的創(chuàng)始人吉爾艾爾巴茨表示。“獲得數據唯一的辦法就是要承擔那些對他們來說是有價值的數據的交換風險。” 許多企業(yè)對于公開數據存在恐懼心理,他說,他們擔心被競爭對手了解到他們的機密。艾爾巴茨先生認為,發(fā)展“de-identifiers”是一項很好的業(yè)務,可以使數據匿名,保護企業(yè)隱私和專業(yè)成本。 另一個數據改善業(yè)務是在線轉移舊數據。一家稱為Captricity的公司旨在利用亞馬遜土耳其機器人(AmazonMechanicalTurk)服務捕獲手機相機的圖像,以便把舊的手寫文件轉換成數字數據庫。該公司早期的業(yè)務來自非洲和印度的政府和慈善機構的網站,但這無法解釋為什么說大多數病歷是沒有價值的。該公司估計,如果有人不嫌麻煩,把這些抄下來,這是一個很好的假設其是有價值的數據對方法。 還有其他企業(yè)試圖把神秘的大數據納入主流,使用易于統(tǒng)計的工具和新方法可視化數據,使它更容易理解。類似于ClearStory和Platfora這樣的企業(yè)想讓它為企業(yè)服務成為可能。Platfora首席執(zhí)行官BenWerther說:“我們正處在大數據的前工業(yè)化時代。”著名的流動風向圖的創(chuàng)造者MartinWattenberg,現在供職于谷歌,談到了數據成果改革設計的必要性。 本文出自:億恩科技【prubsntakaful.com】 |