張東:數據最終目的是為人服務
張東總結:首先是價值密度;其次是數據往往具有很強的獨立性,共享存在障礙;最后大數據一定要更多的來源,跨行業、跨領域的數據碰撞,才能真正稱之為大數據。
談到面臨的問題,張東提出:一是在采集和匯總領域的問題;二是數據質量的問題,以及數據格式的不統一;三是在一些政策或者管理制度上的限制,造成了很多數據沒辦法統一起來。
以下為浪潮集團云計算技術總監張東發言實錄:
張東:很高興連續幾年能夠有機會在這里跟各位專家、各位來賓一起來分享浪潮在云計算方面的一些理念和發展情況。
在前面,我們也講過了很多浪潮對于云計算的理念,我們講行業云,我們在行業里面來推動中國的云計算發展,行業云如何落地,怎么一步一步走向大數據。
今年的主題是講云計算和大數據推動智慧中國。我今天要講的就是我們看到的從行業云到行業里的大數據,整個大數據的推廣和應用過程中存在的挑戰,以及浪潮在這方面面向更多的行業推出了我們的大數據解決之道。
這是我們連續幾年都在講的一個發展路徑,我們從最早開始講浪潮的云計算戰略,云海戰略的時候,就在講云計算第一步只是把我們的資源能夠聚集起來,聚集起來的目的一方面是說我們云計算有云計算的好處,可以降低資源消耗,提高我們的資源利用率。但是,更多的我們是如何能夠將這些資源所承載的業務、所承載的數據,能夠把它聚集起來、把它融合起來,通過我們對數據的進一步挖掘和利用,從而推動我們的經濟和社會服務走向更高的高度。
所以,從這個意義上來講,我們認為從云計算到大數據實際上它是一條從我們把資源聚集到數據利用的一個完整路徑。特別是在現在,我們云計算已經談了幾年了,很多的系統可能也建起來了,如何能夠真正實現我們在一個云里面實現數據間的融合,打破數據間的壁壘,可能就是現在這個階段要做的最重要的工作。
因此,對于數據來講,如果這些數據還像以前我們經常講的中國最大的問題就是信息孤島,所有的數據可能分散在不同的地方,有不同的格式、有不同的掌握,那么我們現在所談到的大數據的挖掘和應用就是沒有基礎的。
我們認為從數據的角度來看,可能跟云計算差不多,比如說云計算我們需要先做物理的集中、業務的集中和數據的融合,對數據挖掘來講,也是一開始我們有數據的那一小部分人,我可能有自己的數據,我去挖掘自己的數據,逐步到我如何實現不同用戶之間的數據相互交互,再到最后,真正意義上所有的大數據。
大數據之大不僅僅在于它的規模大,而是更多的說我這些數據來自不同的來源,可能有我自身產生的,也可能有外面很多比如說互聯網扒來的,或者是自媒體產生的。
行業發展三個階段,從組織內部進行數據的挖掘和應用,到組織內部不同業務模塊的數據共享和應用,一直到跨行業的數據應用。
應該說大數據現在也談了幾年,但是我們的感覺在互聯網領域,它的確很熱,可能在科學領域,很多專業數據的人也很熱心,但是相反在我們看到的這樣一些行業里,比如公安、工商、稅務等等,很多中國很重要的經濟部門和行業部門里面,實際上數據應用還面臨很多問題。
行業大數據的特點是什么呢?我們簡單總結了一個,可能跟我們一般意義上講的大數據略有不同的一些特點,首先第一個是價值密度。我們講大數據的幾個V的時候,大家都會講到價值密度,因為它數據來源復雜、數量量很大,價值密度可能比較低,需要更好的處理技術來處理。而我們認為在行業里面,它的價值密度可能會更高一點,因為它的數據采集往往都是有目的的,比如說我們在工商也好、稅務也好,它的數據可能就是針對它的業務采集的數據。針對這樣一些數據來進行挖掘,其實能夠產生更大更好的價值。
我們知道做任何事情大家可能都愿意去找最好處理、而且能夠快速看到收益的地方,比如說像水總是找下降最快的地方流。同樣在尋找這樣的機會時,我們也覺得在行業里面通過對它的大數據挖掘,能夠更好的發現這里面的一些機會,找到這里面的一些規律,能更好的為我們的經濟服務。
第二點就是一個不太好的,我們認為這是對大數據的一個共享和挖掘來講,不太好的特點。就是在這些行業里面,這些數據往往是具有很強的獨立性,你想讓它共享,其實存在了很多的障礙。大家可能都知道這些數據把它分享出來,綜合處理一下可能是有好處的,但是,由于種種的原因,可能有管理制度上的,也可能有這些人的動機或者說沒有這個動力去做事情的原因,數據共享的比例是非常低的。我們現在看到的一些數字,當然可能是低于10%,甚至有的地方數據共享率更低,而且這種現象不僅僅是在一些我剛才講到的偏政府一類的行業存在,甚至在我們很多的企業內部也同樣存在,比如說財務數據和人力的數據有可能就是沒有辦法共享,也不是沒有辦法共享,或者說他現在壓根就沒有共享在一起,當然這里面存在種種問題。
其中有一個很重要的問題,就是因為這些數據的所有者往往是不同的,因為所有者的不同,其實你也很難把這些數據連在一起。你要解決所有者的一些顧慮,比如說放在一起了,我會不會泄密?放在一起了,會不會有一些別人看到的不該看到的東西,或者篡改,它的安全性如何保證?
第三個特點是我們認為大數據不同于以前的數據分析很大的一點,那就是它強調的是我們在行業間,甚至于包括我們在企業場合產生的一些數據,綜合分析才叫大數據,如果只是簡單的把內部一個ERP里面,或者財務報表里面的財務數據拿出來跑一跑,這個可能在十年前、20年前很多人都能做到,根本談不上是什么大數據。大數據一定要更多的來源,跨行業、跨領域的數據碰撞,才能真正稱之為大數據。
最后一個就是說在這些行業,數據最終的目的,我們從前面講行業云到后面講行業大數據,都是講數據最終一定是要為人服務的,所有的東西都要轉化成數據服務才有意義,否則的話,這些東西你即使做了分析、做了挖掘,最后還是放在你的數據庫里面,沒有把結果跟大家分享,或者說沒有為更多的人產生服務的話,那這個云的建設、大數據系統的建設可能意義就不是那么大了。
但是,這樣一個本來在內部的數據轉化成一個服務,在這個過程中,這些數據本來不該公開的,或者說是如何防止它被外面的人篡改,數據的可靠性、可用性怎么辦,以及在這里面的一些服務質量問題怎么辦,這些都是在行業大數據發展過程中一些不同于我們前面泛泛的講到的,或者說它更鮮明的一些特征。
這里面它面臨哪些問題呢?首先,我們還是把大數據從一個數據的收集聚集起來開始,一直到最后,我們把它進行分析,進行決策,把它展現出來這樣一個過程,包括采集、存儲、分析、可視化,以及最終為決策來服務。在每一個階段,實際上現在還有很多的問題,我們如果要想將大數據推廣到更多的領域,能夠讓更多的行業用戶,或者說傳統的一些信息化用戶用起來,那么我們必須要來解決這個問題。
第一個,就是在采集和匯總領域的問題。因為我們在這一兩年里面頂著大數據的名頭去找了很多用戶,很多用戶聽說大數據很好,搞完預算以后,要搞大數據,他們也很熱心。但是,你去看一看他的系統,首先第一個問題,數據在哪?很多人想做東西,實際上并沒有他要做這個東西的數據,第一個問題就是數據的歸集,可能很多數據產生了,但是對他來講,他沒有一個有效的辦法把它歸集到系統里面去。當然,這個歸集可能是技術手段原因,也可能是一些管理上的原因。
{page_break}
第二個,就算他歸集來了一些數據,這些數據的來源也非常復雜,可能是自己產生的,比如說他自己去采集,用機器采集也好、用人去采集也好,也有的是從別人那拷過來的,然后你也沒有辦法去保證這些數據都是好的,或者說都很適合于來做他后期的業務。也就是說在這里面數據質量是個很大的問題,數據格式不統一也是個很大的問題。
最后在一些政策或者管理制度上的限制,造成了很多數據沒辦法統一起來,我們后面可能會講到一個例子,是國內一個很典型的部門,就是公安,大家都覺得它應該是一個部門,但后來發現里面是N多部門,里面所有的數據在原來都是互補連通的,這個現象不僅僅在這樣一個行業,我們在很多行業都看到了這樣的問題,上下級之間可能不通的,平級部門之間可能也是不通的。
第一個要解決的問題就是怎么把這些東西歸集起來,解決歸集里面一些技術的手段,和我們怎么去做標準,怎么把它規范化的問題。
第二個問題,這項數據歸集起來了,就會遇到一個問題,就是存儲和管理的問題。其實也有很多人說我有很好的采集手段,我有很多攝像頭和傳感器,但是這些東西傳回來很困難,后臺沒那么大的存儲能力,過兩天就得重新把它滾一次。在這里面,隨著數據規模的日益龐大,同時,數據類型也越來越復雜,可能有圖片、視頻,有能放到數據庫里面的,有放不到數據庫里面的,現在很多的那里保存了很多放到數據庫里面的東西,放不到數據庫的慢慢就被替換掉了,因為實在太大,放不下。
還有就是在統一存儲過程中的共享和隱私的問題,這個我們在不止一個用戶那邊都會跟我們提出一個要求。我們現在建了一個統一的大池子,以前的數據都放在我這兒,我現在要把數據放到他那去了,你怎么保證我放在他那的數據是安全的?你一定要給我上這個手段、那個手段,當然很多用戶聽到的都是傳統的手段,比如說強制訪問控制、要加密等等,但是在這里面,傳統安全的一些手段,應該說這是在云計算模式產生之后大家一直在探討的問題,而且也是一直沒有非常好的答案的問題,也就是說我聚集起來以后,怎么防止用戶之間互相滲透,第二怎么防止后臺的管理員,這個我以前根本沒有見過的人,我要去信任他。
第三個問題是在分析過程中產生的問題,從前面的接觸來看,分析過程中問題簡單來講就是兩條。第一,懂業務的人不會寫程序,會寫程序的人不懂業務,如何將這些懂業務人的知識轉化成計算機的知識,這實際上是一個很麻煩的事情。剛才前面很多專家也講到了,現在在一些大企業里面做的一些嘗試,做人臉模式識別,包括語音、視頻、音頻,如何訓練機器像人的大腦一樣工作。但是在很多的專業行業里,其實還有很多更專業的知識。比如說行政領域可能都是靠人,比如說現在我們的醫療,當然大家講專家醫療已經逐步往前走了,但是在醫療系統里面也是一樣的。前一陣子我們跟同事在一起討論的時候,大家也在說這個問題,是不是可以通過計算機的網絡,大家拿著自己的癥狀、化驗單能夠讓計算機幫人看病,解決我們現在很多時候面臨的醫療問題,當然這是另外一個話題了,但是在這里面,如何能夠將人的經驗轉化成計算情感,這是很多人都會面臨的,好不容易找到新應用的人了,其實寫出來的應用做OA還可以,可能再做一個真的要結合他的業務就會很復雜,而且現在有很多算法層面或者更深層面的東西是沒有突破、沒有解決,需要更好的再往前進一步,真正實現通過我們所有的攝像頭監控一個人,這個事情很難做到。
第二個,就是這個應用太復雜了,以前大家都用數據技術,后來都用數據倉庫,再忽然有一天,大家說Hadoop是個好東西,大家全上Hadoop。是不是所有的應用都適合Hadoop,其實不是的,從原來的數據庫切到Hadoop覺得不行又切回去了。如何找到多樣性適合應用的一些技術來解決它的根本問題,也是現在面臨的一個挑戰。
最后就是可視化的問題,現在很多人習慣用pad、手機將這些東西展現出來,也是一個很大的問題。
前面我們講到一些挑戰,后面說一下浪潮在這方面做的一些工作。首先,我們剛才講了,大數據也是浪潮整個云計算戰略的逐步往前邁進的其中一步,我們從行業云開始,幫助用戶做運算、聚集資源、分析數據,這由于我們現在這個云計算的解決方案。浪潮還是專注在我們的數據中心方面,從底層機房建設到服務器、到存儲,到我們提供基礎的系統軟件,一直到上面來提供大數據的咨詢服務、規劃的服務等等,來幫助用戶建立一套云計算和大數據體系。
在過去的一年里面,浪潮在云計算方面也推出了很多新產品,包括我們的模塊化數據中心,面向互聯網高密度的數據中心,現在在互聯網市場占有率已經很高了,包括我們面向行業的大數據領域等等這樣的一些產品,大家感興趣的話可以看一下我們展廳里的介紹。
剛才講了為一個用戶規劃云計算需要一步一步走,我們認為前面的步驟不是說我們從零一下子蹦到三,而是逐步從建云開始到聚集數據,我們也為用戶提供整個一套建設方案的咨詢。
具體到大數據方面,我們提供的方案一個關鍵詞,就是一體化,我們如何理解一體化?我們認為分三個部分,第一是我們前面講到的所有處理過程的,從采集、存儲、分析、可視化,都可以用這樣一套系統解決。第二,發揮浪潮在硬件方面的優勢,通過軟硬結合來提升整體性能,包括硬件方面的加速算是,以及現在專門面向大內存計算的能力,提升整個大數據處理的性能。最后就是解決方案的一體化,面向不同的行業,像今年我們發布了面向金融行業的一體機,未來還會發布面向公安行業的一體機,來做整體的解決方案。
最后為大家分享幾個解決方案的例子,這個實際上也是我們的案例,我們現在還在建設過程當中,這是一個省級公安從云到大數據的整體案例。前面列到的這些問題在剛才已經說到了,比如說我們也覺得一個政府部門可能領導一句話,大家什么事都好辦,實際上什么事都不好辦。這里面的很多東西,比如說數據共享,在這之前可能刑警、經濟、戶籍、海關、出入境全都是分開的,數據之間的共享度在這之前非常差,業務系統重復建設很嚴重,所有的系統都是單機運行的,數據處理能力也較差。
這個就是剛才我們說的,每一個系統都對應了一套硬件,對應了一套數據庫,對應了一套獨立數據,當你要做應用的時候,你給這個做應用,可能在那個上面就沒法跑。通過我們給他從底層進行規劃,包括底層的IaaS層,到中間的基于浪潮開放的大數據處理平臺,我們可理解為一個PaaS,但是我們還是一個初步的數據共享連通的平臺,將它所有的IT系統集中在一起,將它所有的數據集中在一起,實際上它原有的應用,這個業務系統可以不動,它只要說我跑在這個上面,訪問那個地方的特殊數據,就形成了一個新的平臺,將內部所有數據共享起來,同時將外面的數據拿進來,可以進行多點碰撞,實現更多的它以前解決不了的問題,或者說沒有辦法快速解決的問題,這樣就形成了一個整體的云計算和大數據的平臺。
這個是我們具體的一些方案,這是物理上的一個結構,通過統一監控管理,將全省的平臺聯合在一起,這是在大數據方面通過多種處理數據的手段,比如說它里面有很傳統的數據庫的東西,比如說很多人的戶籍信息可能都在數據庫里面,但是它更有大量的音視頻數據,采用了多種平臺,包括數據庫、類似Hadoop這樣的新式平臺,來構建一個統一的平臺。
在上面是我們浪潮的一個數據共享平臺,也叫IOP,將底層所有的云數據進行統一抽取,統一進行處理,在上面把它展現出來,這樣就形成了我們面向公安的一個大數據解決方案。
2、本網其他來源作品,均轉載自其他媒體,目的在于傳遞更多信息,不表明證實其描述或贊同其觀點。文章內容僅供參考。
3、若因版權等問題需要與本網聯絡,請在30日內聯系我們,電話:0755-32905944,或者聯系電子郵件: 434489116@qq.com ,我們會在第一時間刪除。
4、在本網發表評論者責任自負。
網友評論僅供其表達個人看法,并不表明本網同意其觀點或證實其描述,發言請遵守相關規定。