
說到大數(shù)據(jù),是一個現(xiàn)在經(jīng)常被提到的流行詞匯,它包含了很多行業(yè)的很多領(lǐng)域。在業(yè)務(wù)分析中,大數(shù)據(jù). . .
說到大數(shù)據(jù),是一個現(xiàn)在經(jīng)常被提到的流行詞匯,它包含了很多行業(yè)的很多領(lǐng)域。在業(yè)務(wù)分析中,大數(shù)據(jù)通常意味著使用從客戶中獲得的信息,銷售預(yù)測、供應(yīng)商和很多別的投入的信息,對業(yè)務(wù)做出最優(yōu)決策,既包括短期的也包括長期的。大宗商品的交易員可能會用完全不同的方式使用大數(shù)據(jù),也許他們會從氣候數(shù)據(jù)中尋求分析,這需要查看衛(wèi)星和相關(guān)文本信息的其它圖像數(shù)據(jù),來決定哪種交易適合長期或者短期。這些事例需要一套完全不同的分析工具,十分有效,且使用完全不同的計算類型和存儲環(huán)境,作為將處理數(shù)據(jù)將它變成信息的算法是非常不同的。
最近,我和JeffLayton在晚餐的時候會面,討論了一些來自圖表分析的不同類型的算法,到MapReduce,到圖像變化監(jiān)測,和其它的,以及一些框架,例如NOSQL和有效運行這些算法的系統(tǒng)架構(gòu)。當(dāng)然,有來自很多供應(yīng)商和即將成為供應(yīng)商的專業(yè)設(shè)備。所以大數(shù)據(jù)對我來說就是將數(shù)據(jù)變成信息的過程,然后再變成知識。
這不是一個新現(xiàn)象。這不是我的名言。大約400年前,FrancisBacon先生就說過“知識就是力量。”當(dāng)我們從數(shù)據(jù)中提取越來越多的信息和知識時,我和Jeff相信系統(tǒng)架構(gòu)將會有很大的變化。沒有提取和分開檔案的信息,你將不會有靜態(tài)檔案。
我和Jeff討論了如何解決這個問題,什么類型的數(shù)據(jù)很重要以及如何移動到新計算時代。晚餐期間,我們通過兩種不同的方向,自上而下和自下而上,想到了解決大數(shù)據(jù)的方法。我和Jeff討論了寫數(shù)據(jù)本身和采取哪種提取方式取決于數(shù)據(jù)類型,以及光譜的哪一端,哪種硬件需要用來分析數(shù)據(jù)。當(dāng)然,我們晚餐中間討論了操作系統(tǒng)、文件系統(tǒng)和其它的大數(shù)據(jù)架構(gòu)所需要的系統(tǒng)軟件。得到編輯的批準(zhǔn),我和Jeff準(zhǔn)備開展“Jeff和Henry的大數(shù)據(jù)探險。”
我將會開始討論大數(shù)據(jù)算法所需要的硬件和大數(shù)據(jù)架構(gòu)的問題。例如:
·未來需要哪種架構(gòu)解決MapReduce難題,未來的圖表問題或者圖像改變監(jiān)測問題
·你是否需要SSD,SAS驅(qū)動或者企業(yè)SATA驅(qū)動?
·需要哪種類型的存儲控制器?
·關(guān)鍵數(shù)據(jù)歸檔問題是什么?
·在將來,需要哪種接口——SAS、FibreChannelEthernet或者其它的?
·計劃的CPU會滿足需求嗎,或者需要GPGPU、FPGAs或者一些不太顯眼的東西?
·內(nèi)存要求呢?未來是否DDR-3/4/5內(nèi)存計劃能夠滿足需求?
·你需要存儲分層和更大的內(nèi)存?例如通過擴展CPU渠道,如SGIUltraviolet一連接機器,或者專業(yè)的內(nèi)存系統(tǒng)和處理器,例如CrayuRIKA?
·CPU建設(shè)是否需要緩存一致性檢查,緩存一致性帶寬對于你需要的數(shù)據(jù)類型分析有用嗎?
·操作系統(tǒng)高于設(shè)備尋址底層硬件的任務(wù)嗎?
·語言、編譯器、調(diào)試器和需要運行系統(tǒng)硬件的整個生態(tài)系統(tǒng)如何?
·不要忘記數(shù)據(jù)的安全性,因為現(xiàn)在的數(shù)據(jù)已經(jīng)成為信息和新建的知識,如何從你的競爭對手、敵人和不應(yīng)該訪問的雇員中保存信息?
也許你想讓一些用戶看一些東西,別的用戶只能看匿名數(shù)據(jù)。醫(yī)院病人的數(shù)據(jù)就是一個主要的例子;你除了醫(yī)生不讓別人看你的實際病歷,但是研究團(tuán)隊可能需要查看病情、治療選擇和結(jié)果。安全將會是巨大的問題,如信息的創(chuàng)建和保存在一個獨立的位置。不論它是個人的私有數(shù)據(jù)還是公司秘密,對黑客來說都是一個誘惑。不是所有人都能夠查看所有事情,每件事情都應(yīng)該被追蹤,例如審查跟蹤。
這里的問題包括:
·需要運行在這些系統(tǒng)之上的應(yīng)用程序怎么樣呢?
·某些查詢會比其它的更優(yōu)先嗎?
·應(yīng)用程序是如何寫數(shù)據(jù)的,以方便讀取處理?
·應(yīng)用程序需要多少線程,需要一個并行編程模型嗎?如果是,編程模型是什么樣的呢,或者需要一個SMP模型嗎?將會需要使用哪種編程模型?
程序上的應(yīng)用程序可以獲得任何捷徑嗎?90%的答案是獲得50%的計算處理。這90%的答案適合在框架時期給出嗎?或者你在做著生與死的抉擇的時候,在哪種情況下90%的答案是不夠好的。
倒是幸虧,服務(wù)員上菜很慢而且飯菜可口,不然我和Jeff不會有足夠的時間討論這些問題。
當(dāng)然,我們沒有得出任何結(jié)論。自從我和Jeff的晚餐會議之后,我們在接下來的幾天仔細(xì)討論,并且決定將“大數(shù)據(jù)”作為我們第二年度聯(lián)合寫作項目的主題。
我們?nèi)绾翁幚泶髷?shù)據(jù)
未來幾個月,我會逐步建立堆棧和忙于大數(shù)據(jù)問題,將會起始于硬件和堆棧的向上移動。因為我說過很多次,細(xì)節(jié)很重要(至少需要一些時間)。Jeff會從另一端開始,致力于堆棧的中間部分。我們會在操作系統(tǒng)或者編譯和函數(shù)庫中的某個地方接合。
你可能會問為什么存儲站點都在討論編譯器、調(diào)試器和類似的東西,為什么我要閱讀這些相關(guān)的?好問題。答案是,我們將會看到我們的世界正從面向數(shù)據(jù)處理到面向信息的處理的轉(zhuǎn)變。一切都將會改變,我們不希望我們的讀者運用恐龍式的舊方法。我們相信這一轉(zhuǎn)變,是如何考慮主要變化開始發(fā)生的理解關(guān)鍵。存儲只是一部分,若想成功,你不只需要了解存儲,還有新的操作環(huán)境及其需求。
這并不是說,我們相信會成為所有羅列內(nèi)容的專家,因為沒有人是,甚至是嘗試成為的,但是那說明想要成功,你必須關(guān)注和了解方方面面,或者一些我也沒想到的事情和一些獨有的東西,才適合未來的發(fā)展。大數(shù)據(jù)不只是云存儲。也不是關(guān)于歸檔、備份或者其它的戰(zhàn)術(shù)問題。它就是談?wù)撃闼鶕碛械?,提取能夠幫助你的組織獲得成功的信息。(來源:智慧領(lǐng)袖網(wǎng))