大數(shù)據(jù)平臺
在大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)的數(shù)量、類型和生成速度不斷增長,以存儲、運(yùn)算、展現(xiàn)作為目的和如何充分利用“活力”數(shù)據(jù)實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新突破,則是企業(yè)搭建大數(shù)據(jù)平臺的根本目的所在。大數(shù)據(jù)技術(shù)是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計(jì)算平臺,互聯(lián)網(wǎng),和可擴(kuò)展的存儲系統(tǒng)。
慧點(diǎn)與主流的大數(shù)據(jù)平臺廠商有著悠久的合作歷史,如戴爾易安信、IBM、SAP、Oracle、微軟、新華三、華為等;可幫助用戶提供咨詢、規(guī)劃、部署和售后支持服務(wù)。
慧點(diǎn)在大數(shù)據(jù)平臺搭建方面有著多年的實(shí)踐經(jīng)驗(yàn),可在數(shù)據(jù)同步、數(shù)據(jù)脫敏、數(shù)據(jù)歸檔方面進(jìn)行按需定制開發(fā),同時(shí)也對整個(gè)數(shù)據(jù)流過程進(jìn)行有效的安全管控;在大數(shù)據(jù)平臺的部署時(shí)會(huì)兼顧客戶現(xiàn)有數(shù)據(jù)結(jié)構(gòu)和模型,既能幫助用戶節(jié)省大數(shù)據(jù)平臺的搭建成本,同時(shí)也能縮減建設(shè)周期。
選擇超融合一體機(jī)是搭建大數(shù)據(jù)平臺的趨勢
從2017年開始,業(yè)界已經(jīng)有企業(yè)開始推廣人工智能(AI)+大數(shù)據(jù)+云計(jì)算三種能力整合的一體機(jī)產(chǎn)品,超融合一體機(jī)更適合互聯(lián)網(wǎng)行業(yè)的應(yīng)用屬性,因此在云、大數(shù)據(jù)、AI時(shí)代,一體機(jī)會(huì)是一個(gè)趨勢,截至到2018年,35%的服務(wù)器都將以集成系統(tǒng)方式交付,這里的集成系統(tǒng)就包括超融合、軟硬一體機(jī)等多種形態(tài)。
所謂一體機(jī),是軟件與硬件相結(jié)合的集成系統(tǒng)產(chǎn)品,其一般集數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)存儲三方面于一體。一體機(jī)通過預(yù)先集成、測試、優(yōu)化,能夠?qū)崿F(xiàn)快速部署、簡化IT基礎(chǔ)架構(gòu),節(jié)省資源,提升系統(tǒng)高可用性和可擴(kuò)展性。
為什么要選擇超融合一體機(jī)
目前市場上接受度較高的就是數(shù)據(jù)庫一體機(jī),其主要原因是:
1.數(shù)據(jù)庫加速,為取得更好的數(shù)據(jù)庫性能,會(huì)在硬件層、彈性存儲層做垂直深入的調(diào)優(yōu),例如采用讀寫更快的SSD盤,采用面向數(shù)據(jù)庫獨(dú)特的讀寫算法。
2.數(shù)據(jù)庫加固,為保證數(shù)據(jù)庫數(shù)據(jù)不丟失、不損壞,會(huì)在中間件服務(wù)層增加數(shù)據(jù)庫的備份/恢復(fù)、容災(zāi)、定期校驗(yàn)等服務(wù),提高數(shù)據(jù)的可用性。
超融合一體機(jī)的優(yōu)勢
簡化(預(yù)集成)、優(yōu)化的基礎(chǔ)設(shè)施,降低部署管理難度
而從IT基礎(chǔ)設(shè)施發(fā)展角度看,復(fù)雜的計(jì)算、網(wǎng)絡(luò)、存儲等系統(tǒng)的集成模式已經(jīng)成為業(yè)務(wù)創(chuàng)新的“絆腳石”。簡化(預(yù)集成)、優(yōu)化的基礎(chǔ)設(shè)施才能為數(shù)據(jù)驅(qū)動(dòng)“智能化”提供更好的保障,解放IT人員的部署運(yùn)維工作,真正有精力關(guān)注業(yè)務(wù)創(chuàng)新、數(shù)據(jù)智能等領(lǐng)域。
大數(shù)據(jù)處理軟件的設(shè)計(jì)原則是“本地化計(jì)算”,“計(jì)算與存儲一體”
以Hadoop、Spark為代表的大數(shù)據(jù)處理框架,架構(gòu)設(shè)計(jì)原則之一就是:本地化計(jì)算。這摒棄了傳統(tǒng)計(jì)算和存儲系統(tǒng)分開的架構(gòu),而采用服務(wù)器的CPU和硬盤作為計(jì)算存儲能力。本地化計(jì)算(計(jì)算隨數(shù)據(jù)分布)是指并行計(jì)算框架智能地將計(jì)算任務(wù)指派到存儲著該任務(wù)所需數(shù)據(jù)的節(jié)點(diǎn),從而避免傳統(tǒng)分布式計(jì)算中嚴(yán)重的數(shù)據(jù)傳輸瓶頸。
深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)算法需特殊硬件
以卷積神經(jīng)網(wǎng)絡(luò)CNN
為例,訓(xùn)練深度學(xué)習(xí)模型所需要的計(jì)算力是超大規(guī)模的,比如基于ImageNet數(shù)據(jù)集訓(xùn)練CNN,數(shù)據(jù)集一共大約120萬張圖片,訓(xùn)練算法需要對這個(gè)數(shù)據(jù)集掃描100遍(epoch),這意味著10^18次浮點(diǎn)計(jì)算,即1exaFlops。簡單演算一下,基于一個(gè)主頻為2.0GHz的CPU
core來訓(xùn)練這樣的模型需要好幾年的時(shí)間。而采用GPU(NVIDIA Tesla
P40),單塊只需50小時(shí)。按照一臺2U服務(wù)器裝載4塊GPU計(jì)算,只需要12.5小時(shí)。這也就是GPU比CPU在人工智能上的侵略性優(yōu)勢、而谷歌的TPU處理性能號稱比GPU快百倍。
而大數(shù)據(jù)一體機(jī)可很方便的加入GPU、TPU、FPGA
等專有硬件,就形成了特有的競爭力。(上訴神經(jīng)網(wǎng)絡(luò)算法只是這類專有硬件應(yīng)用的冰山一角,其他例如:數(shù)據(jù)庫加速、語言識別、視頻處理等,都需要大量專有硬件)
數(shù)據(jù)驅(qū)動(dòng):客戶都需要有一個(gè)自己的“大腦”
數(shù)據(jù)資產(chǎn)正變得越來越重要,因此誰也不希望自己的數(shù)據(jù)被某幾個(gè)云巨頭存儲和分析。因此未來各行各業(yè)的客戶勢必需要一個(gè)自己的“大腦”,而大數(shù)據(jù)一體機(jī)是很好的承載平臺。一方面保證數(shù)據(jù)資產(chǎn)留在自己的IDC機(jī)房,另一方面也具備便捷運(yùn)維、高效分析的能力。