除了“物聯網”和“云計算”,IT業又出現了一個新名詞——大數據。如今,大數據甚至引起了工商界和金融界的高度關注,人們認為大數據將為數據應用和決策支持提供有效幫助,成為物聯網和云計算內在的靈魂和必然的發展趨勢。
大數據目前尚沒有統一的定義,通常被認為是一種數據量很大、數據形式多樣化的非結構化數據。
這里我們先弄清楚幾個概念,結構化數據、半結構化數據和非結構化數據。結構化數據可以在關系數據庫中找到,多年來一直主導著IT應用;半結構化數據包括電子郵件、文字處理文件以及大量發布在網絡上的新聞等,以內容為基礎,這也是谷歌和百度存在的理由;而非結構化數據廣泛存在于社交網絡、物聯網、電子商務之中。伴隨著社交網絡、移動計算和傳感器等新技術不斷產生,有報告稱,超過85%的數據屬于非結構化數據。
很多人相信這些龐大的異構數據中蘊含著巨大財富——企業如果能在這些非結構化數據中挖掘知識并與業務融合,決策的依據將會更加全面和準確;在科學、體育、廣告和公共衛生等其他領域中,也有著向數據驅動型的發現和決策方式轉變的趨勢。
大數據的推動因素主要來自于一些大型IT公司,如谷歌、亞馬遜、中國移動、阿里巴巴等,他們需要以更加優化的方式存儲和分析數據。此外,還有一些來自健康醫療、地理空間遙感和數字媒體等行業的大數據需求。據市場研究公司統計,未來10年里預計數字信息總量將在2009年到2020年增長44倍,全球數據使用量將達到大約35.2ZB(1ZB=10億TB)。
大數據呈現出“4V+1C”的特點:(1)Variety,大數據種類繁多,在編碼方式、數據格式、應用特征等多個方面存在差異性,多信息源并發形成大量的異構數據;(2)Volume,通過各種設備產生的海量數據,其數據規模極為龐大,遠大于目前互聯網上的信息流量,PB級別將是常態;(3)Velocity,涉及到感知、傳輸、決策、控制開放式循環的大數據,對數據實時處理有著極高的要求,通過傳統數據庫查詢方式得到的“當前結果”很可能已經沒有價值;(4)Vitality,數據持續到達,并且只有在特定時間和空間中才有意義;(5)Complexity,通過數據庫處理持久存儲的數據不再適用于大數據處理,需要有新的方法來滿足異構數據統一接入和實時數據處理的需求。
Apache的Hadoop已成為大數據行業發展背后的技術推動力,Hive和Pig等技術也經常被提到。同時,旨在從非結構化數據的龐大寶藏中獲得知識和洞察力的計算機工具也正在迅速發展中。這些工具的發展依賴于不斷進步的人工智能技術,比如自然語言處理、模式識別和機器學習等。
可以預見,未來一兩年內,將會涌現大量能夠處理大型非結構化數據的工具和平臺。除了Hadoop的批量化處理方式之外,基于流數據處理的方式也將在實時數據分析應用中發揮作用。此外,大數據熱潮還將對可視化的理解和需求提出新的挑戰。可視化在數據工作流中將同時起到解釋和探索的作用,數據科學家會將可視化作為尋求問題以及探索數據集新特性的一種方式。
由于大數據的技術門檻較高,因此目前在該領域展開競爭的大都是在數據存儲、分析等領域有著傳統優勢的廠商。2012年1月,Oracle正式發布Oracle大數據機。IBM在大數據領域的優勢則在于全面,而機器人“沃森”在人機大戰中獲勝,更成為IBM為其大數據分析解決方案加分的例證。
中國市場在這個新興領域非常重要。中國有龐大的人口基數,IT基礎設施也比較成熟,數據量是不可想象的。樂觀的人已經看到了其中的機會,不論是出于應對海量數據的需要進行系統升級,還是試圖從數據中挖掘價值的沖動,都有可能迎來一個充滿智慧的“數據創新”時代。
結構化數據。結構化數據可以在關系數據庫中找到,多年來一直主導著IT應用;半結構化數據包括電子郵件、文字處理文件以及大量發布在網絡上的新聞等,以內容為基礎,這也是谷歌和百度存在的理由;而非結構化數據廣泛存在于社交網絡、物聯網、電子商務之中。伴隨著社交網絡、移動計算和傳感器等新技術不斷產生,有報告稱,超過85%的數據屬于非結構化數據。
很多人相信這些龐大的異構數據中蘊含著巨大財富——企業如果能在這些非結構化數據中挖掘知識并與業務融合,決策的依據將會更加全面和準確;在科學、體育、廣告和公共衛生等其他領域中,也有著向數據驅動型的發現和決策方式轉變的趨勢。
大數據的推動因素主要來自于一些大型IT公司,如谷歌、亞馬遜、中國移動、阿里巴巴等,他們需要以更加優化的方式存儲和分析數據。此外,還有一些來自健康醫療、地理空間遙感和數字媒體等行業的大數據需求。據市場研究公司統計,未來10年里預計數字信息總量將在2009年到2020年增長44倍,全球數據使用量將達到大約35.2ZB(1ZB=10億TB)。
大數據呈現出“4V+1C”的特點:(1)Variety,大數據種類繁多,在編碼方式、數據格式、應用特征等多個方面存在差異性,多信息源并發形成大量的異構數據;(2)Volume,通過各種設備產生的海量數據,其數據規模極為龐大,遠大于目前互聯網上的信息流量,PB級別將是常態;(3)Velocity,涉及到感知、傳輸、決策、控制開放式循環的大數據,對數據實時處理有著極高的要求,通過傳統數據庫查詢方式得到的“當前結果”很可能已經沒有價值;(4)Vitality,數據持續到達,并且只有在特定時間和空間中才有意義;(5)Complexity,通過數據庫處理持久存儲的數據不再適用于大數據處理,需要有新的方法來滿足異構數據統一接入和實時數據處理的需求。
Apache的Hadoop已成為大數據行業發展背后的技術推動力,Hive和Pig等技術也經常被提到。同時,旨在從非結構化數據的龐大寶藏中獲得知識和洞察力的計算機工具也正在迅速發展中。這些工具的發展依賴于不斷進步的人工智能技術,比如自然語言處理、模式識別和機器學習等。
可以預見,未來一兩年內,將會涌現大量能夠處理大型非結構化數據的工具和平臺。除了Hadoop的批量化處理方式之外,基于流數據處理的方式也將在實時數據分析應用中發揮作用。此外,大數據熱潮還將對可視化的理解和需求提出新的挑戰。可視化在數據工作流中將同時起到解釋和探索的作用,數據科學家會將可視化作為尋求問題以及探索數據集新特性的一種方式。
由于大數據的技術門檻較高,因此目前在該領域展開競爭的大都是在數據存儲、分析等領域有著傳統優勢的廠商。2012年1月,Oracle正式發布Oracle大數據機。IBM在大數據領域的優勢則在于全面,而機器人“沃森”在人機大戰中獲勝,更成為IBM為其大數據分析解決方案加分的例證。
中國市場在這個新興領域非常重要。中國有龐大的人口基數,IT基礎設施也比較成熟,數據量是不可想象的。樂觀的人已經看到了其中的機會,不論是出于應對海量數據的需要進行系統升級,還是試圖從數據中挖掘價值的沖動,都有可能迎來一個充滿智慧的“數據創新”時代。
來自愛爾蘭、法國和意大利的科學家攜手,成功構建了全球最大的數字微生物庫——“阿波羅”(APOLLO)。“阿波羅”囊括了247092個計算模型,其中包含迄今為止最全面的人體微生物組計算模型,有望增進科學......
人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿......
12月28日,由人民數據開發的“數融平臺”正式上線試運營。平臺整體依托區塊鏈、人工智能和企業經營相關數據要素,實現鏈上信息全透明、全上鏈,實現數據資產情況全穿透,實時追蹤一手風控數據,對潛......
隨著新一輪科技革命和產業變革深入發展,數據作為關鍵生產要素的價值日益凸顯。五部門:制定數據產業發展促進政策近日,國家數據局聯合中央網信辦、工業和信息化部、公安部、國務院國資委印發了《關于促進企業數據資......
■提出基礎通用、感知識別、網絡通信、平臺技術與集成應用5項建設重點■到2027年底,標準創新體系進一步完善,推動我省構建完整的傳感器與物聯網產業鏈標準體系;標準化示范效應進一步釋放,培育一批掌握標準話......
2024年12月3日,自然科學基金委管理科學部、信息科學部在北京召開專項項目“數據市場制度設計與關鍵技術”評審會議。自然科學基金委黨組成員、副主任江松院士出席會議并講話。國家數據局政策與規劃司副司長欒......
根據《工業和信息化部辦公廳關于組織開展2024年物聯網賦能行業發展典型案例征集工作的通知》(工信廳科函〔2024〕300號),工業和信息化部科技司組織開展了相關申報和評審工作。為進一步聽取社會各界意見......
2024年度國家自然科學基金指南引導類原創探索計劃項目“數據流通市場的基礎理論與治理方法”項目指南以數據要素為核心引擎推動數字經濟深化發展,有利于構建新發展格局、建設現代化經濟體系、構筑國家競爭新優勢......
10月21日下午和10月22日上午,國家計量科學數據中心在恩施市接續2024年度工作會召開了“計量與數字化”學術會議。本次會議共安排了13場精彩的學術報告,展出了系列學術墻報,并為學術墻報獲獎者頒獎。......
金秋十月,丹桂飄香。2024年10月21日,國家計量科學數據中心2024年度工作會暨“計量與數字化”學術會議在湖北省恩施州順利召開。本屆大會由中國計量科學研究院主辦,湖北省計量測試技術研究院和恩施州計......