新聞分類
在昨天(4月24日)的百度技術(shù)開放日上,李彥宏現(xiàn)身并推出了百度大數(shù)據(jù)引擎。這在百度,表明對(duì)相關(guān)產(chǎn)品最高的重視了。
這個(gè)發(fā)布是什么意思呢?簡單地講,大數(shù)據(jù)引擎將百度在大數(shù)據(jù)的數(shù)據(jù)、能力和技術(shù)開放給行業(yè),行業(yè)可以近身距離甚遠(yuǎn)的大數(shù)據(jù)盛宴,百度則尋到了一個(gè)新的增長點(diǎn)。
大數(shù)據(jù)引擎三件套
百度大數(shù)據(jù)引擎一共分三個(gè)部分。
開放云:百度的大規(guī)模分布式計(jì)算和超大規(guī)模存儲(chǔ)云。過去的百度云主要面向開發(fā)者,大數(shù)據(jù)引擎的開放云則是面向有大數(shù)據(jù)存儲(chǔ)和處理需求的“大開發(fā)者”。
百度的開放云擁有超過1.2萬臺(tái)的單集群,超過阿里飛天計(jì)劃的5k集群。百度開放云還擁有CPU利用率高、彈性高、成本低等特點(diǎn)。百度是全球首家大規(guī)模商用ARM服務(wù)器的公司,而ARM架構(gòu)的特征是能耗小和存儲(chǔ)密度大,同時(shí)百度還是首家將GPU(圖形處理器)應(yīng)用在機(jī)器學(xué)習(xí)領(lǐng)域的公司,實(shí)現(xiàn)了能耗節(jié)省的目的。
數(shù)據(jù)工廠:開放云是基礎(chǔ)設(shè)施和硬件能力,你可以把數(shù)據(jù)工廠理解為百度將海量數(shù)據(jù)組織起來的軟件能力。就像數(shù)據(jù)庫軟件的位置一樣。只不過數(shù)據(jù)工廠是被用作處理TB級(jí)甚至更大的數(shù)據(jù)。
百度數(shù)據(jù)工廠支持單詞百TB異構(gòu)數(shù)據(jù)查詢,支持SQL-like以及更復(fù)雜的查詢語句,支持各種查詢業(yè)務(wù)場景。同時(shí)百度數(shù)據(jù)工廠還將承載對(duì)于TB級(jí)別大表的并發(fā)查詢和掃描,大查詢、低并發(fā)時(shí)每秒可達(dá)百GB,在業(yè)界已經(jīng)是很領(lǐng)先的能力了。
百度大腦:有了大數(shù)據(jù)處理和存儲(chǔ)的基礎(chǔ)之后,還得有一套能夠應(yīng)用這些數(shù)據(jù)的算法。圖靈獎(jiǎng)獲得者N.Wirth(沃斯)提出過“程序=數(shù)據(jù)結(jié)構(gòu)+算法”的理論。如果說百度大數(shù)據(jù)引擎是一個(gè)程序,那么它的數(shù)據(jù)結(jié)構(gòu)就是數(shù)據(jù)工廠+開放云,而算法則對(duì)應(yīng)到百度大腦。
百度大腦將百度此前在人工智能方面的能力開放出來,主要是大規(guī)模機(jī)器學(xué)習(xí)能力和深度學(xué)習(xí)能力。此前它們被應(yīng)用在語音、圖像、文本識(shí)別,以及自然語言和語義理解方面,被應(yīng)用在不少App,還通過百度Inside等平臺(tái)開放給了智能硬件。現(xiàn)在這些能力將被用來對(duì)大數(shù)據(jù)進(jìn)行智能化的分析、學(xué)習(xí)、處理、利用。百度深度神經(jīng)網(wǎng)絡(luò)擁有200億個(gè)參數(shù),是全球規(guī)模最大的,它擁有獨(dú)立的深度學(xué)習(xí)研究院(IDL)和較早的布局,在人工智能上百度已經(jīng)快了一步,現(xiàn)在貢獻(xiàn)給業(yè)界表明了它要開放的決心。
大數(shù)據(jù)引擎可以干嘛
百度將基礎(chǔ)設(shè)施能力、軟件系統(tǒng)能力以及智能算法技術(shù)打包在一起,通過大數(shù)據(jù)引擎開放出來之后,擁有大數(shù)據(jù)的行業(yè)可以將自己的數(shù)據(jù)接入到這個(gè)引擎進(jìn)行處理。同時(shí),一些企業(yè)在沒有大數(shù)據(jù)的情況下,還可以使用百度的數(shù)據(jù)以及大數(shù)據(jù)成果。
從架構(gòu)來看,企業(yè)或組織也可以只選擇三件套中的一樣使用,例如數(shù)據(jù)存放在自己的云,但要運(yùn)用百度大腦的一些智能算法應(yīng)該也是支持的。
舉幾個(gè)例子可能你更加清楚百度大數(shù)據(jù)引擎究竟是什么。
許多政府部門擁有海量大數(shù)據(jù)——大數(shù)據(jù)經(jīng)典之作《大數(shù)據(jù)》也是在講美國政府的大數(shù)據(jù)。但政府部門幾乎都沒有大數(shù)據(jù)處理和挖掘技術(shù)。交通部門有車聯(lián)網(wǎng)、物聯(lián)網(wǎng)、路網(wǎng)監(jiān)控、船聯(lián)網(wǎng)、碼頭車站監(jiān)控等地方的大數(shù)據(jù),衛(wèi)生部門擁有流感法定報(bào)告數(shù)據(jù)、全國流感樣病例哨點(diǎn)監(jiān)測和病原學(xué)監(jiān)測數(shù)據(jù),公安部門有大量的視頻監(jiān)控?cái)?shù)據(jù)。如果這些數(shù)據(jù)與百度的搜索記錄、全網(wǎng)數(shù)據(jù)、LBS數(shù)據(jù)結(jié)合,在利用百度大數(shù)據(jù)引擎的大數(shù)據(jù)能力,則可以實(shí)現(xiàn)智能路徑規(guī)劃、運(yùn)力管理、流感預(yù)測、疫苗接種指導(dǎo)、安防追逃等等。
許多企業(yè)也擁有海量大數(shù)據(jù)——通信、金融、物流、制造、農(nóng)業(yè)等行業(yè)。不過,它們幾乎都沒有大數(shù)據(jù)能力,坐擁海量數(shù)據(jù)卻一籌莫展。這時(shí)候如果能夠應(yīng)用百度大數(shù)據(jù)引擎,則可以對(duì)海量數(shù)據(jù)進(jìn)行可靠低成本的存儲(chǔ),進(jìn)行智能化的由淺入深的價(jià)值挖掘。在百度技術(shù)開放日上,中國平安便介紹了如何利用百度的大數(shù)據(jù)能力加強(qiáng)消費(fèi)者理解和預(yù)測,細(xì)分客戶群制定個(gè)性化產(chǎn)品和營銷方案。
可以看出,大數(shù)據(jù)引擎的輸入實(shí)際上是百度擁有的大數(shù)據(jù)以及行業(yè)已有的大數(shù)據(jù),而輸出則是各種行業(yè)應(yīng)用成果,也就是大數(shù)據(jù)的“價(jià)值”。
電話:400-607-1108