張東:數(shù)據(jù)最終目的是為人服務(wù)
張東總結(jié):首先是價值密度;其次是數(shù)據(jù)往往具有很強的獨立性,共享存在障礙;最后大數(shù)據(jù)一定要更多的來源,跨行業(yè)、跨領(lǐng)域的數(shù)據(jù)碰撞,才能真正稱之為大數(shù)據(jù)。
談到面臨的問題,張東提出:一是在采集和匯總領(lǐng)域的問題;二是數(shù)據(jù)質(zhì)量的問題,以及數(shù)據(jù)格式的不統(tǒng)一;三是在一些政策或者管理制度上的限制,造成了很多數(shù)據(jù)沒辦法統(tǒng)一起來。
以下為浪潮集團云計算技術(shù)總監(jiān)張東發(fā)言實錄:
張東:很高興連續(xù)幾年能夠有機會在這里跟各位專家、各位來賓一起來分享浪潮在云計算方面的一些理念和發(fā)展情況。
在前面,我們也講過了很多浪潮對于云計算的理念,我們講行業(yè)云,我們在行業(yè)里面來推動中國的云計算發(fā)展,行業(yè)云如何落地,怎么一步一步走向大數(shù)據(jù)。
今年的主題是講云計算和大數(shù)據(jù)推動智慧中國。我今天要講的就是我們看到的從行業(yè)云到行業(yè)里的大數(shù)據(jù),整個大數(shù)據(jù)的推廣和應(yīng)用過程中存在的挑戰(zhàn),以及浪潮在這方面面向更多的行業(yè)推出了我們的大數(shù)據(jù)解決之道。
這是我們連續(xù)幾年都在講的一個發(fā)展路徑,我們從最早開始講浪潮的云計算戰(zhàn)略,云海戰(zhàn)略的時候,就在講云計算第一步只是把我們的資源能夠聚集起來,聚集起來的目的一方面是說我們云計算有云計算的好處,可以降低資源消耗,提高我們的資源利用率。但是,更多的我們是如何能夠?qū)⑦@些資源所承載的業(yè)務(wù)、所承載的數(shù)據(jù),能夠把它聚集起來、把它融合起來,通過我們對數(shù)據(jù)的進一步挖掘和利用,從而推動我們的經(jīng)濟和社會服務(wù)走向更高的高度。
所以,從這個意義上來講,我們認為從云計算到大數(shù)據(jù)實際上它是一條從我們把資源聚集到數(shù)據(jù)利用的一個完整路徑。特別是在現(xiàn)在,我們云計算已經(jīng)談了幾年了,很多的系統(tǒng)可能也建起來了,如何能夠真正實現(xiàn)我們在一個云里面實現(xiàn)數(shù)據(jù)間的融合,打破數(shù)據(jù)間的壁壘,可能就是現(xiàn)在這個階段要做的最重要的工作。
因此,對于數(shù)據(jù)來講,如果這些數(shù)據(jù)還像以前我們經(jīng)常講的中國最大的問題就是信息孤島,所有的數(shù)據(jù)可能分散在不同的地方,有不同的格式、有不同的掌握,那么我們現(xiàn)在所談到的大數(shù)據(jù)的挖掘和應(yīng)用就是沒有基礎(chǔ)的。
我們認為從數(shù)據(jù)的角度來看,可能跟云計算差不多,比如說云計算我們需要先做物理的集中、業(yè)務(wù)的集中和數(shù)據(jù)的融合,對數(shù)據(jù)挖掘來講,也是一開始我們有數(shù)據(jù)的那一小部分人,我可能有自己的數(shù)據(jù),我去挖掘自己的數(shù)據(jù),逐步到我如何實現(xiàn)不同用戶之間的數(shù)據(jù)相互交互,再到最后,真正意義上所有的大數(shù)據(jù)。
大數(shù)據(jù)之大不僅僅在于它的規(guī)模大,而是更多的說我這些數(shù)據(jù)來自不同的來源,可能有我自身產(chǎn)生的,也可能有外面很多比如說互聯(lián)網(wǎng)扒來的,或者是自媒體產(chǎn)生的。
行業(yè)發(fā)展三個階段,從組織內(nèi)部進行數(shù)據(jù)的挖掘和應(yīng)用,到組織內(nèi)部不同業(yè)務(wù)模塊的數(shù)據(jù)共享和應(yīng)用,一直到跨行業(yè)的數(shù)據(jù)應(yīng)用。
應(yīng)該說大數(shù)據(jù)現(xiàn)在也談了幾年,但是我們的感覺在互聯(lián)網(wǎng)領(lǐng)域,它的確很熱,可能在科學(xué)領(lǐng)域,很多專業(yè)數(shù)據(jù)的人也很熱心,但是相反在我們看到的這樣一些行業(yè)里,比如公安、工商、稅務(wù)等等,很多中國很重要的經(jīng)濟部門和行業(yè)部門里面,實際上數(shù)據(jù)應(yīng)用還面臨很多問題。
行業(yè)大數(shù)據(jù)的特點是什么呢?我們簡單總結(jié)了一個,可能跟我們一般意義上講的大數(shù)據(jù)略有不同的一些特點,首先第一個是價值密度。我們講大數(shù)據(jù)的幾個V的時候,大家都會講到價值密度,因為它數(shù)據(jù)來源復(fù)雜、數(shù)量量很大,價值密度可能比較低,需要更好的處理技術(shù)來處理。而我們認為在行業(yè)里面,它的價值密度可能會更高一點,因為它的數(shù)據(jù)采集往往都是有目的的,比如說我們在工商也好、稅務(wù)也好,它的數(shù)據(jù)可能就是針對它的業(yè)務(wù)采集的數(shù)據(jù)。針對這樣一些數(shù)據(jù)來進行挖掘,其實能夠產(chǎn)生更大更好的價值。
我們知道做任何事情大家可能都愿意去找最好處理、而且能夠快速看到收益的地方,比如說像水總是找下降最快的地方流。同樣在尋找這樣的機會時,我們也覺得在行業(yè)里面通過對它的大數(shù)據(jù)挖掘,能夠更好的發(fā)現(xiàn)這里面的一些機會,找到這里面的一些規(guī)律,能更好的為我們的經(jīng)濟服務(wù)。
第二點就是一個不太好的,我們認為這是對大數(shù)據(jù)的一個共享和挖掘來講,不太好的特點。就是在這些行業(yè)里面,這些數(shù)據(jù)往往是具有很強的獨立性,你想讓它共享,其實存在了很多的障礙。大家可能都知道這些數(shù)據(jù)把它分享出來,綜合處理一下可能是有好處的,但是,由于種種的原因,可能有管理制度上的,也可能有這些人的動機或者說沒有這個動力去做事情的原因,數(shù)據(jù)共享的比例是非常低的。我們現(xiàn)在看到的一些數(shù)字,當然可能是低于10%,甚至有的地方數(shù)據(jù)共享率更低,而且這種現(xiàn)象不僅僅是在一些我剛才講到的偏政府一類的行業(yè)存在,甚至在我們很多的企業(yè)內(nèi)部也同樣存在,比如說財務(wù)數(shù)據(jù)和人力的數(shù)據(jù)有可能就是沒有辦法共享,也不是沒有辦法共享,或者說他現(xiàn)在壓根就沒有共享在一起,當然這里面存在種種問題。
其中有一個很重要的問題,就是因為這些數(shù)據(jù)的所有者往往是不同的,因為所有者的不同,其實你也很難把這些數(shù)據(jù)連在一起。你要解決所有者的一些顧慮,比如說放在一起了,我會不會泄密?放在一起了,會不會有一些別人看到的不該看到的東西,或者篡改,它的安全性如何保證?
第三個特點是我們認為大數(shù)據(jù)不同于以前的數(shù)據(jù)分析很大的一點,那就是它強調(diào)的是我們在行業(yè)間,甚至于包括我們在企業(yè)場合產(chǎn)生的一些數(shù)據(jù),綜合分析才叫大數(shù)據(jù),如果只是簡單的把內(nèi)部一個ERP里面,或者財務(wù)報表里面的財務(wù)數(shù)據(jù)拿出來跑一跑,這個可能在十年前、20年前很多人都能做到,根本談不上是什么大數(shù)據(jù)。大數(shù)據(jù)一定要更多的來源,跨行業(yè)、跨領(lǐng)域的數(shù)據(jù)碰撞,才能真正稱之為大數(shù)據(jù)。
最后一個就是說在這些行業(yè),數(shù)據(jù)最終的目的,我們從前面講行業(yè)云到后面講行業(yè)大數(shù)據(jù),都是講數(shù)據(jù)最終一定是要為人服務(wù)的,所有的東西都要轉(zhuǎn)化成數(shù)據(jù)服務(wù)才有意義,否則的話,這些東西你即使做了分析、做了挖掘,最后還是放在你的數(shù)據(jù)庫里面,沒有把結(jié)果跟大家分享,或者說沒有為更多的人產(chǎn)生服務(wù)的話,那這個云的建設(shè)、大數(shù)據(jù)系統(tǒng)的建設(shè)可能意義就不是那么大了。
但是,這樣一個本來在內(nèi)部的數(shù)據(jù)轉(zhuǎn)化成一個服務(wù),在這個過程中,這些數(shù)據(jù)本來不該公開的,或者說是如何防止它被外面的人篡改,數(shù)據(jù)的可靠性、可用性怎么辦,以及在這里面的一些服務(wù)質(zhì)量問題怎么辦,這些都是在行業(yè)大數(shù)據(jù)發(fā)展過程中一些不同于我們前面泛泛的講到的,或者說它更鮮明的一些特征。
這里面它面臨哪些問題呢?首先,我們還是把大數(shù)據(jù)從一個數(shù)據(jù)的收集聚集起來開始,一直到最后,我們把它進行分析,進行決策,把它展現(xiàn)出來這樣一個過程,包括采集、存儲、分析、可視化,以及最終為決策來服務(wù)。在每一個階段,實際上現(xiàn)在還有很多的問題,我們?nèi)绻雽⒋髷?shù)據(jù)推廣到更多的領(lǐng)域,能夠讓更多的行業(yè)用戶,或者說傳統(tǒng)的一些信息化用戶用起來,那么我們必須要來解決這個問題。
第一個,就是在采集和匯總領(lǐng)域的問題。因為我們在這一兩年里面頂著大數(shù)據(jù)的名頭去找了很多用戶,很多用戶聽說大數(shù)據(jù)很好,搞完預(yù)算以后,要搞大數(shù)據(jù),他們也很熱心。但是,你去看一看他的系統(tǒng),首先第一個問題,數(shù)據(jù)在哪?很多人想做東西,實際上并沒有他要做這個東西的數(shù)據(jù),第一個問題就是數(shù)據(jù)的歸集,可能很多數(shù)據(jù)產(chǎn)生了,但是對他來講,他沒有一個有效的辦法把它歸集到系統(tǒng)里面去。當然,這個歸集可能是技術(shù)手段原因,也可能是一些管理上的原因。
{page_break}
第二個,就算他歸集來了一些數(shù)據(jù),這些數(shù)據(jù)的來源也非常復(fù)雜,可能是自己產(chǎn)生的,比如說他自己去采集,用機器采集也好、用人去采集也好,也有的是從別人那拷過來的,然后你也沒有辦法去保證這些數(shù)據(jù)都是好的,或者說都很適合于來做他后期的業(yè)務(wù)。也就是說在這里面數(shù)據(jù)質(zhì)量是個很大的問題,數(shù)據(jù)格式不統(tǒng)一也是個很大的問題。
最后在一些政策或者管理制度上的限制,造成了很多數(shù)據(jù)沒辦法統(tǒng)一起來,我們后面可能會講到一個例子,是國內(nèi)一個很典型的部門,就是公安,大家都覺得它應(yīng)該是一個部門,但后來發(fā)現(xiàn)里面是N多部門,里面所有的數(shù)據(jù)在原來都是互補連通的,這個現(xiàn)象不僅僅在這樣一個行業(yè),我們在很多行業(yè)都看到了這樣的問題,上下級之間可能不通的,平級部門之間可能也是不通的。
第一個要解決的問題就是怎么把這些東西歸集起來,解決歸集里面一些技術(shù)的手段,和我們怎么去做標準,怎么把它規(guī)范化的問題。
第二個問題,這項數(shù)據(jù)歸集起來了,就會遇到一個問題,就是存儲和管理的問題。其實也有很多人說我有很好的采集手段,我有很多攝像頭和傳感器,但是這些東西傳回來很困難,后臺沒那么大的存儲能力,過兩天就得重新把它滾一次。在這里面,隨著數(shù)據(jù)規(guī)模的日益龐大,同時,數(shù)據(jù)類型也越來越復(fù)雜,可能有圖片、視頻,有能放到數(shù)據(jù)庫里面的,有放不到數(shù)據(jù)庫里面的,現(xiàn)在很多的那里保存了很多放到數(shù)據(jù)庫里面的東西,放不到數(shù)據(jù)庫的慢慢就被替換掉了,因為實在太大,放不下。
還有就是在統(tǒng)一存儲過程中的共享和隱私的問題,這個我們在不止一個用戶那邊都會跟我們提出一個要求。我們現(xiàn)在建了一個統(tǒng)一的大池子,以前的數(shù)據(jù)都放在我這兒,我現(xiàn)在要把數(shù)據(jù)放到他那去了,你怎么保證我放在他那的數(shù)據(jù)是安全的?你一定要給我上這個手段、那個手段,當然很多用戶聽到的都是傳統(tǒng)的手段,比如說強制訪問控制、要加密等等,但是在這里面,傳統(tǒng)安全的一些手段,應(yīng)該說這是在云計算模式產(chǎn)生之后大家一直在探討的問題,而且也是一直沒有非常好的答案的問題,也就是說我聚集起來以后,怎么防止用戶之間互相滲透,第二怎么防止后臺的管理員,這個我以前根本沒有見過的人,我要去信任他。
第三個問題是在分析過程中產(chǎn)生的問題,從前面的接觸來看,分析過程中問題簡單來講就是兩條。第一,懂業(yè)務(wù)的人不會寫程序,會寫程序的人不懂業(yè)務(wù),如何將這些懂業(yè)務(wù)人的知識轉(zhuǎn)化成計算機的知識,這實際上是一個很麻煩的事情。剛才前面很多專家也講到了,現(xiàn)在在一些大企業(yè)里面做的一些嘗試,做人臉模式識別,包括語音、視頻、音頻,如何訓(xùn)練機器像人的大腦一樣工作。但是在很多的專業(yè)行業(yè)里,其實還有很多更專業(yè)的知識。比如說行政領(lǐng)域可能都是靠人,比如說現(xiàn)在我們的醫(yī)療,當然大家講專家醫(yī)療已經(jīng)逐步往前走了,但是在醫(yī)療系統(tǒng)里面也是一樣的。前一陣子我們跟同事在一起討論的時候,大家也在說這個問題,是不是可以通過計算機的網(wǎng)絡(luò),大家拿著自己的癥狀、化驗單能夠讓計算機幫人看病,解決我們現(xiàn)在很多時候面臨的醫(yī)療問題,當然這是另外一個話題了,但是在這里面,如何能夠?qū)⑷说慕?jīng)驗轉(zhuǎn)化成計算情感,這是很多人都會面臨的,好不容易找到新應(yīng)用的人了,其實寫出來的應(yīng)用做OA還可以,可能再做一個真的要結(jié)合他的業(yè)務(wù)就會很復(fù)雜,而且現(xiàn)在有很多算法層面或者更深層面的東西是沒有突破、沒有解決,需要更好的再往前進一步,真正實現(xiàn)通過我們所有的攝像頭監(jiān)控一個人,這個事情很難做到。
第二個,就是這個應(yīng)用太復(fù)雜了,以前大家都用數(shù)據(jù)技術(shù),后來都用數(shù)據(jù)倉庫,再忽然有一天,大家說Hadoop是個好東西,大家全上Hadoop。是不是所有的應(yīng)用都適合Hadoop,其實不是的,從原來的數(shù)據(jù)庫切到Hadoop覺得不行又切回去了。如何找到多樣性適合應(yīng)用的一些技術(shù)來解決它的根本問題,也是現(xiàn)在面臨的一個挑戰(zhàn)。
最后就是可視化的問題,現(xiàn)在很多人習(xí)慣用pad、手機將這些東西展現(xiàn)出來,也是一個很大的問題。
前面我們講到一些挑戰(zhàn),后面說一下浪潮在這方面做的一些工作。首先,我們剛才講了,大數(shù)據(jù)也是浪潮整個云計算戰(zhàn)略的逐步往前邁進的其中一步,我們從行業(yè)云開始,幫助用戶做運算、聚集資源、分析數(shù)據(jù),這由于我們現(xiàn)在這個云計算的解決方案。浪潮還是專注在我們的數(shù)據(jù)中心方面,從底層機房建設(shè)到服務(wù)器、到存儲,到我們提供基礎(chǔ)的系統(tǒng)軟件,一直到上面來提供大數(shù)據(jù)的咨詢服務(wù)、規(guī)劃的服務(wù)等等,來幫助用戶建立一套云計算和大數(shù)據(jù)體系。
在過去的一年里面,浪潮在云計算方面也推出了很多新產(chǎn)品,包括我們的模塊化數(shù)據(jù)中心,面向互聯(lián)網(wǎng)高密度的數(shù)據(jù)中心,現(xiàn)在在互聯(lián)網(wǎng)市場占有率已經(jīng)很高了,包括我們面向行業(yè)的大數(shù)據(jù)領(lǐng)域等等這樣的一些產(chǎn)品,大家感興趣的話可以看一下我們展廳里的介紹。
剛才講了為一個用戶規(guī)劃云計算需要一步一步走,我們認為前面的步驟不是說我們從零一下子蹦到三,而是逐步從建云開始到聚集數(shù)據(jù),我們也為用戶提供整個一套建設(shè)方案的咨詢。
具體到大數(shù)據(jù)方面,我們提供的方案一個關(guān)鍵詞,就是一體化,我們?nèi)绾卫斫庖惑w化?我們認為分三個部分,第一是我們前面講到的所有處理過程的,從采集、存儲、分析、可視化,都可以用這樣一套系統(tǒng)解決。第二,發(fā)揮浪潮在硬件方面的優(yōu)勢,通過軟硬結(jié)合來提升整體性能,包括硬件方面的加速算是,以及現(xiàn)在專門面向大內(nèi)存計算的能力,提升整個大數(shù)據(jù)處理的性能。最后就是解決方案的一體化,面向不同的行業(yè),像今年我們發(fā)布了面向金融行業(yè)的一體機,未來還會發(fā)布面向公安行業(yè)的一體機,來做整體的解決方案。
最后為大家分享幾個解決方案的例子,這個實際上也是我們的案例,我們現(xiàn)在還在建設(shè)過程當中,這是一個省級公安從云到大數(shù)據(jù)的整體案例。前面列到的這些問題在剛才已經(jīng)說到了,比如說我們也覺得一個政府部門可能領(lǐng)導(dǎo)一句話,大家什么事都好辦,實際上什么事都不好辦。這里面的很多東西,比如說數(shù)據(jù)共享,在這之前可能刑警、經(jīng)濟、戶籍、海關(guān)、出入境全都是分開的,數(shù)據(jù)之間的共享度在這之前非常差,業(yè)務(wù)系統(tǒng)重復(fù)建設(shè)很嚴重,所有的系統(tǒng)都是單機運行的,數(shù)據(jù)處理能力也較差。
這個就是剛才我們說的,每一個系統(tǒng)都對應(yīng)了一套硬件,對應(yīng)了一套數(shù)據(jù)庫,對應(yīng)了一套獨立數(shù)據(jù),當你要做應(yīng)用的時候,你給這個做應(yīng)用,可能在那個上面就沒法跑。通過我們給他從底層進行規(guī)劃,包括底層的IaaS層,到中間的基于浪潮開放的大數(shù)據(jù)處理平臺,我們可理解為一個PaaS,但是我們還是一個初步的數(shù)據(jù)共享連通的平臺,將它所有的IT系統(tǒng)集中在一起,將它所有的數(shù)據(jù)集中在一起,實際上它原有的應(yīng)用,這個業(yè)務(wù)系統(tǒng)可以不動,它只要說我跑在這個上面,訪問那個地方的特殊數(shù)據(jù),就形成了一個新的平臺,將內(nèi)部所有數(shù)據(jù)共享起來,同時將外面的數(shù)據(jù)拿進來,可以進行多點碰撞,實現(xiàn)更多的它以前解決不了的問題,或者說沒有辦法快速解決的問題,這樣就形成了一個整體的云計算和大數(shù)據(jù)的平臺。
這個是我們具體的一些方案,這是物理上的一個結(jié)構(gòu),通過統(tǒng)一監(jiān)控管理,將全省的平臺聯(lián)合在一起,這是在大數(shù)據(jù)方面通過多種處理數(shù)據(jù)的手段,比如說它里面有很傳統(tǒng)的數(shù)據(jù)庫的東西,比如說很多人的戶籍信息可能都在數(shù)據(jù)庫里面,但是它更有大量的音視頻數(shù)據(jù),采用了多種平臺,包括數(shù)據(jù)庫、類似Hadoop這樣的新式平臺,來構(gòu)建一個統(tǒng)一的平臺。
在上面是我們浪潮的一個數(shù)據(jù)共享平臺,也叫IOP,將底層所有的云數(shù)據(jù)進行統(tǒng)一抽取,統(tǒng)一進行處理,在上面把它展現(xiàn)出來,這樣就形成了我們面向公安的一個大數(shù)據(jù)解決方案。

2、本網(wǎng)其他來源作品,均轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,不表明證實其描述或贊同其觀點。文章內(nèi)容僅供參考。
3、若因版權(quán)等問題需要與本網(wǎng)聯(lián)絡(luò),請在30日內(nèi)聯(lián)系我們,電話:0755-32905944,或者聯(lián)系電子郵件: 434489116@qq.com ,我們會在第一時間刪除。
4、在本網(wǎng)發(fā)表評論者責(zé)任自負。
- 中小科技型企業(yè)的福音:關(guān)于平臺經(jīng)濟領(lǐng)域的反壟斷指南 (征求意見稿)
- 木棉道 · 中國雅事 | 插花,居室一抹香
- 為打開國際市場 擴大山西知名度省長帶隊攜知名品牌亮相進博會
- 山西省紡織產(chǎn)業(yè)創(chuàng)新聯(lián)盟毛麻絲產(chǎn)業(yè)科技服務(wù)隊在大同中銀紡織服務(wù)
- 虎門服交會早知道:第25屆中國(虎門)國際服裝交易會暨虎門時裝周備戰(zhàn)會召開
- 富民快訊:2020虎門富民時裝節(jié)11月20日—21日與您盛情相約
- 大朗快訊:第十九屆中國(大朗)國際毛織產(chǎn)品交易會圓滿落幕
- 木棉道時尚秀場:虎門時裝周“陌上木蘭·扶搖”時裝發(fā)布會預(yù)告
網(wǎng)友評論僅供其表達個人看法,并不表明本網(wǎng)同意其觀點或證實其描述,發(fā)言請遵守相關(guān)規(guī)定。