“通過大數據的挖掘,從資料完整度、交友真誠度及賬號安全度評定用戶‘靠譜度’。”一家著名婚戀介紹網站最近打出廣告,聲稱可用“大數據”技術打擊相親騙子。
如今,“大數據”是一個時髦的詞匯,很多商家紛紛推出“大數據”服務。全世界的大數據技術研發機構都吸引了眾多風投和眼球。
大數據讓人眼前一亮,也讓人兩眼一黑。9月,著名信息技術分析公司Gartner發布《2013年大數據普及程度背后的炒作》報告,指出2013年30%的企業已開始大數據工作,而另外34%的企業有計劃在兩年內開始。但這些企業大多告訴調查者,不知道自己在做什么,也不知道為什么要做大數據工作。
根據這一報告,半數以上企業不知道如何從數據中獲取價值;三分之一的企業缺乏大數據處理能力;甚至還有超過五分之一的公司不知大數據究竟為何物。
如果連嗅覺靈敏的企業家們都不真正理解大數據,其他人就更是難窺其全貌。大數據時代還在雛形,它會變成什么樣子沒人能說準。
起源于科學界的商業熱詞
盡管商界對大數據帶來的商機津津樂道,但一開始討論大數據時代的是科學家。“生命與醫療、粒子物理、天氣預報、基因學、地震預報等已經是數據密集型應用了。”清華大學自動化系教授肖田元說,“典型的例子是美國氣象預報局年數據量達 30PB(1PB=100萬GB),每日觀察資料超過35億份。DNA序列分析使用網絡大數據分析工具進行億萬次DNA短鏈分析,制造基于DNA的分子物質。科學家還推出大尺度數據管理架構與可視化方法,讓解碼人類基因組這種原先花費10年的工作可以在一周內完成。”
上海大學教授費敏銳介紹道:“像華大基因,分析的數據量有幾百PB。他們在全世界找到了25種栽培稻和24種野生稻,正因為有大數據分析能力,他們掃描了這些水稻的全基因圖,找到了162個決定水稻產量的基因。”
大型強子對撞機(LHC)的例子更是常被提及,LHC每秒鐘生成1PB的數據,要用4.5萬個磁帶機做存檔,是目前世界上最大的數據生產者。
在此背景下,2008年9月,《自然》雜志推出大數據專刊,探討科研形態變化;《科學》雜志2011年也推出大數據專刊,將大數據深度分析看成未來研究的突破點。
“真正開始討論大數據,大家都公認是《自然》雜志2008年的專輯所帶來的。”電子科學研究院研究員王積鵬說,“計量文獻來看,討論大數據的論文2011年發生井噴。這幾年大家都拿大數據說話,但是主要在于應用,而不是在于理論研究。”
科學家們當時的憂慮是大數據難以處理,肖田元說:“計算機已經超過了千萬億次級,‘天河二號’是2000萬億次,未來10年可能達到億億次。但是軟件發展很慢。美國也是這樣,認為高性能計算的算法開發滯后。我們國家高性能計算機為什么利用率不高,原因就在這里。”
典型的數據管理困境,如國內一位信息技術工作者所說:“我做過某衛星的信息資源管理,衛星每天產生上百GB的數據量。處理完之后,文件都存在相應的磁盤、磁帶等,通過幾個系統呈現,一年下來數據量相當大,但是并沒有產生大數據的特性。”
工業界也提出了類似問題,肖田元舉例說:“有個著名的發動機公司提出設想,把它的航空發動機數據實時傳到總部,結合過去的數據,實時檢測和預報故障。數據量非常大,現在要同時檢測、計算和預報,很難做到。”這一困難,肖田元概括為“科研智能如何趕上感知能力”。
在科研界關于大數據挑戰的討論之后,互聯網商業看到了大數據中的“金礦”。這也是被如今大家所熟悉的大數據議題。最典型的例子如宏源證券研究所副所長易歡歡介紹:“阿里巴巴,最早從B2B到B2C,聚集了千萬級的中小微企業,形成了5.4億注冊用戶。這個公司牛在哪?這些數據背后的因素包括什么?銷售數據、產品數據、應收賬款、存貨、資金流向、物業信息等一系列綜合信息,而且是實時的,遠比銀行報表準確得多。它有你的消費偏好、家庭地址、還款卡號等一系列信息,這才叫大數據。”
IT業研究公司M&M發布的一份最新報告指出,全球大數據市場將在未來5年內迎來高達26%的年復合增長率——即從今年的148.7億美元增長到2018年的463.4億美元。膨脹速度如此快,可見市場對大數據概念響應的熱烈。
不同行業從不同角度發現了數據爆炸的挑戰和機會。最終,大數據頻頻見諸媒體,成為達沃斯等國際峰會上的熱詞,但就如前述報告所顯示的,企業家對這一概念并無把握。
數據公開讓美國占得先機
大數據商機顯現后,2012年3月,奧巴馬政府發布《大數據研究與發展倡議》,同時組建“大數據高級指導小組”,標志著美國把大數據提高到國家戰略層面。
國防大學教授胡曉峰說:“我認為奧巴馬試圖通過大數據發展計劃,再次重復信息高速公路計劃帶來的互聯網霸權。美國人已經把目光瞄準到大數據的未來領域,我覺得是為了創造未來的大數據霸權奠定基礎。”
“美國政府提出大數據計劃的根源,在于有十幾年以上數據公開的基礎。”北京理工大學教授丁剛毅說,美國的DATA.GOV網站就體現了政府公開數據的力度,“大家可以上網看,DATA.GOV的數據量非常大,和世界銀行、聯合國的數據都可以媲美。里面很多都是敏感數據,但它就是敢公布,認為只有公布這樣的數據,才能有更好的國際合作去應對危機。歐盟、英國,包括巴西這樣的發展中國家,都已經加入了DATA.GOV”。
丁剛毅說,在數據公開上,聯合國組織和美國的一些研究機構在全力以赴,已經有10年了。每年還有各式各樣的活動促進數據公開。
美國數據開放,使不少基于政府數據的服務,創造了巨大效益。比如硅谷有一家“氣候公司”,利用美國氣象局數據庫中幾十年的天氣數據,研究各地降雨、氣溫、土壤狀況與歷年農作物產量的相關度,預測農場下一年的產量,以出售保險。這家公司由于前景光明,最近被農業巨頭孟山都公司收購。
還有利用氣象信息和航班誤點信息來預測航班誤點幾率的服務,可以推動航空公司提高正點率。再如城市治堵,政府的數據也排上了用場——美國和英國最早利用大數據管理交通,給出交通預測,讓公私車輛適時出行。
對于政府數據公開的益處,美國商務部首席信息官西克曼在一次IT會議上說:“政府實現預期目標的真正障礙不僅在于收集數據,更在于如何將數據轉化為切實可用的信息產品以及開發知識。”
“畢竟很多有能力提出好點子的人才分散在各個私有組織,他們也許會提出一些關于數據利用的優秀方案。”西克曼說,“分享我們的數據,并不只是為了追求所謂政府事務的透明度,這真的有可能以全新方式,讓我們產生并傳播的數據迸發出別樣的力量—— 而這一切在我們現有的規劃及有限的資源面前根本無法實現。”
丁剛毅說,他曾跟國內一些著名的互聯網公司接觸過,申請共享其數據,公司表示“給你一段可以,幾百個TB也好,幾個PB也可以,但連續的數據絕對不可以”。他認為,對于研究者,長期不斷、隨時隨地都可以接觸的數據,才是大數據。
“政府和行業共享數據應該是大數據的基礎,離開共享政策,根本就沒有大數據。”丁剛毅說。
大數據繁榮需共享+立法
中國人對大數據的關注并不晚。2012年7月,我國《“十二五”國家戰略性新興產業發展規劃》明確提出,要“加強以海量數據處理軟件等為代表的基礎軟件的開發”。2012年12月,中關村大數據產業聯盟宣布成立。
根據IT分析公司IDC預測,中國大數據技術與服務市場將快速增長到2016年的6.16億美元。但這一數額僅僅是世界市場的一個零頭。
網絡研究專家秦安在接受媒體訪問時表示,中國設立大數據機構從時間上看,似乎并不落后于美國,但大數據應用涉及整個以互聯網為核心的產業鏈,美國在大數據應用上的領先程度由思科、微軟、谷歌等跨國IT公司的實力所決定,恐怕中國幾十年內難以完全超越。
9月30日,中共中央政治局在中關村調研時,百度公司CEO李彥宏就宣講了大數據的題目。他認為大數據在兩方面最有價值,一是促進信息消費,加快經濟轉型升級;二是關注社會民生,帶動社會管理創新。李彥宏同時表示,國家層面要發展大數據,就要促進數據開放,扶持科研、培育人才。
這種“數據開放”的觀點,代表了中國大數據行業觀察者的共識。互聯網評論家葛甲指出:“數據開放在割據狀態的互聯網上靠企業的力量是完不成的,只有從政府層面去進行推動。現在做大數據的公司這么多,其實多數只有個殼子,沒有實際內容。大數據的基礎是巨量數據,不具備一定程度的數據量,是做不成的。于是,李彥宏提出了數據開放這個概念。”
葛甲認為,數據開放“這里面的難處,在于配套的管理制度和法律法規,政府的作用就是維護其公平性,堅決維護小企業的商業利益,扮演好管理者和仲裁者的角色,不要讓自身經濟利益牽涉其間”。
信息產業專家、中國工程院院士鄔賀銓今年在一篇名為《大數據時代的機遇與挑戰》的文章中也寫道:“中國人口居世界首位,將會成為產生數據量最多的國家,但我們對數據保存不夠重視,對存儲數據的利用率也不高。此外,我國一些部門和機構擁有大量數據卻不愿與其他部門共享,導致信息不完整或重復投資。政府應通過體制機制改革打破數據割據與封鎖。”
還有一位業界專家告訴記者,政府對大數據行業的扶持,除促進數據公開外,應采用購買服務的方式,而非越俎代庖,設立不必要的政府項目。
另外,鄔賀銓還指出應盡快制定《信息公開法》。“現在很多機構和企業擁有大量客戶信息。應當既鼓勵面向群體、服務社會的數據挖掘,又要防止侵犯個體隱私;既提倡數據共享,又要防止數據被濫用。”他認為,需要界定數據挖掘、利用的權限和范圍,防止信息被損壞、篡改、泄露或被竊,保護公民的信息安全。
“(大數據)標準和產業格局尚未形成,是我國實現跨越式發展的寶貴機會。”鄔賀銓說,“要注意科學規劃,切忌一哄而上。”
中新社武漢10月9日電(馬芙蓉陳國雄)記者9日從中國地質大學(武漢)獲悉,該校聯合美國加州大學河濱分校、加拿大地調局等機構科研人員,利用深時地學大數據和機器學習技術,重建了高精度的地球大氣氧化歷史,據......
9月17日,神舟十四號航天員乘組實施第二次出艙活動,舉世矚目。中國航天員身后的“太空之家”里,擬南芥幼苗已長出多片葉子,高稈水稻幼苗、矮稈水稻也在奮力生長。自1987年中國首次將農作物種子送上天迄今的......
當地時間2022年9月20日,“全球發展倡議之友小組”部長級會議在紐約舉行。會上,中方發布《地球大數據支撐可持續發展目標報告(2022)》。《報告》聚焦零饑餓、清潔飲水和衛生設施、經濟適用的清潔能源、......
近日,由上海海洋大學和自然資源部杭州全球海洋Argo系統野外科學觀測研究站聯合研制的全球海洋Argo網格數據集(簡稱GDCSM_Argo)在國際Argo官方網站正式發布,這是我國在國際上公開發布并定期......
現場進行科技合作簽約 山東省科協供圖9月15日,由山東省科協、菏澤市人民政府、中國軟件行業協會主辦,菏澤市科協、山東省大數據研究會等承辦的山東......
近幾十年來,越來越多的50歲以下成年人患上癌癥。美國科學家進行的一項研究顯示,早發型癌癥(50歲之前被診斷出的癌癥,包括乳腺癌、結腸癌、食道癌、腎癌、肝癌和胰腺癌等)的發病率,從1990年開始在世界范......
在全球首個大數據服務聯合國2030年可持續發展議程的專業科技機構——可持續發展大數據國際研究中心(SDG中心,英文簡稱CBAS)成立一周年之際,2022年可持續發展大數據國際論壇9月6日至8日在北京舉......
“不用有創的組織活檢,看了眼底就知道腎臟病變到了何種程度,而且還能判別血管硬化、腎小球病變的程度。”在短短一句話中,中國工程院院士、解放軍總醫院第一醫學中心陳香美既道出了中醫、西醫可互補的優勢,又呈現......
“對于全球科技期刊來講,開放科學帶來了學術交流模式的變革,從原來傳統的學術交流模式,轉向新型的學術交流模式。”8月25日,中國科學院文獻情報中心副主任、研究館員張智雄在第十七屆中國科技期刊發展論壇“開......
日前從2022中國算力大會獲悉:截至今年6月底,我國在用數據中心機架總規模超過590萬標準機架,服務器規模約2000萬臺,算力總規模超過150EFlops(每秒15000京次浮點運算次數),排名全球第......