• <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 發布時間:2025-02-04 21:38 原文鏈接: 合成數據能否讓AI模型精確可靠?

      人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿足AI的“胃口”,科技行業正轉向使用合成數據。

      澳大利亞“對話”網站在本月稍早時間報道中指出,合成數據具有諸多優勢,但過度依賴合成數據也可能削弱AI的精確性和可靠性。

      合成數據應運而生

      以往,科技公司主要依賴真實數據來構建、訓練和改進AI模型。真實數據是指由人類創建的文本、視頻和圖像。它們通過調查、實驗、觀察或挖掘網站和社交媒體等途徑被收集而來。

      真實數據因蘊含真實事件以及其場景和背景而極具價值,但其并非盡善盡美。它可能摻雜拼寫錯誤、不一致或無關的內容,甚至潛藏嚴重偏見,導致生成式AI模型在某些情況下創建的圖像僅展示男性或白人形象。

      但真實數據日益匱乏,因為人類生成數據的速度趕不上AI不斷增長的需求。

      美國開放人工智能研究中心聯合創始人伊利亞·蘇茨克維爾在去年12月舉行的機器學習會議上聲稱,AI行業已觸及他所稱的“數據峰值”,AI的訓練數據如同化石燃料一樣面臨著耗盡的危機。此外,有研究預測,到2026年,ChatGPT等大型語言模型的訓練將耗盡互聯網上所有可用文本數據,屆時將沒有新的真實數據可供使用。

      為給AI提供充足的“養分”,一種由算法生成的、模仿真實世界情況的數據——合成數據應運而生。合成數據是在數字世界中創造的,而非從現實世界收集或測量而來。它可以作為真實世界數據的替代品,來訓練、測試、驗證AI模型。

      從理論上來說,合成數據為訓練AI模型提供了一種經濟高效且快捷的解決方案。它有效解決了AI訓練使用真實數據時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數據等敏感信息時。更重要的是,與真實數據不同,合成數據在理論上可以無限供應。

      研究機構高德納公司估計,2024年AI及分析項目使用的數據中,約60%是合成數據。到2030年,AI模型使用的絕大部分數據將是由AI生成的合成數據。

      科技公司來者不拒

      事實上,微軟、元宇宙平臺公司,以及Anthropic等眾多科技頭部企業和初創企業,已經開始廣泛使用合成數據來訓練其AI模型。

      例如,微軟在1月8日開源的AI模型“Phi-4”,便是合成數據攜手真實數據訓練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數據,開發出其性能最優異的AI系統之一“Claude 3.5 Sonnet”。蘋果自研AI系統Apple Intelligence,在預訓練階段,也大量使用了合成數據。

      隨著科技公司對合成數據的需求與日俱增,生產合成數據的工具也接踵而至。

      英偉達公司發布的3D仿真數據生成引擎Omniverse Replicator,能夠生成合成數據,用于自動駕駛汽車和機器人訓練。去年6月,英偉達開源了Nemotron-4340b系列模型,開發者可使用該模型生成合成數據,用于訓練大型語言模型,以應用于醫療保健、金融、制造、零售等行業。在醫療、金融等專業領域,該模型能夠根據特定需求生成高質量的合成數據,幫助構建更為精準的行業專屬模型。微軟推出的開源合成數據工具Synthetic Data Showcase則旨在通過生成合成數據和用戶界面,實現隱私保護的數據共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數十萬張自動標記的合成圖像。

      此外,去年12月,元宇宙平臺公司推出開源大模型Llama 3.3,更是大幅降低了生成合成數據的成本。

      過度依賴風險難測

      盡管合成數據暫時解決了AI訓練的燃眉之急,但它也并非盡善盡美。

      一個關鍵問題在于:當AI模型過于依賴合成數據時,它們可能會“崩潰”。它們會產生更多“幻覺”,編造看似合理可信但實際上并不存在的信息。而且,AI模型的質量和性能也會飛速下降,甚至無法使用。例如,某個AI模型生成的數據出現了一些拼寫錯誤,利用這些充滿了錯誤的數據訓練其他模型,這些AI模型必定會“以訛傳訛”,導致更大的錯誤。

      此外,合成數據也存在過于簡單化的風險。它可能缺乏真實數據集蘊含的細節和多樣性,這可能導致在其上訓練的AI模型的輸出也過于簡單,缺乏實用性。

      為解決這些問題,國際標準化組織需要著手創建強大的系統,來跟蹤和驗證AI訓練數據。此外,AI系統可以配備元數據追蹤功能,讓用戶或系統能對合成數據進行溯源。人類也需要在AI模型的整個訓練過程中對合成數據進行監督,以確保其高質量且符合道德標準。


    相關文章

    合成數據能否讓AI模型精確可靠?

    人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿......

    合成數據能否讓AI模型精確可靠?

    人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿......

    深度思維AI模型表現超越現有天氣預報

    新一期《自然》雜志發表的一項研究報道了深度思維推出的最新機器學習模型。該模型能根據當前和未來天氣進行可靠的概率天氣預報,其表現不但超過了最好的傳統中程天氣預報,還能更好地預測極端天氣、熱帶氣旋路線和風......

    AI模型10秒內檢出腦腫瘤殘留

    美國密歇根大學和加利福尼亞大學舊金山分校領導的研究人員開發出一款名為FastGlioma的人工智能(AI)模型。在腦手術中,該模型僅用10秒就判斷出是否還有殘留的癌性腫瘤。在識別腫瘤殘留方面,Fast......

    AI模型“Evo”:揭開基因組“密碼全書”新篇章

    《科學》雜志15日發布了一項突破性研究成果:美國斯坦福大學Arc研究所團隊利用人工智能(AI),開發出一種大規模基因組基礎模型“Evo”,翻開了生命的“密碼全書”。該模型采用先進架構,能夠以前所未有的......

    百圖生科:融資超14億元、訂單超142億元,下一步要做生命科學AI模型提供商

    百圖生科聯合創始人、CEO劉維2024年諾貝爾化學獎頒給谷歌DeepMind丹米斯·哈薩比斯(DemisHassabis)和約翰·喬普(JohnM.Jumper),表彰AI大模型實現蛋白質結構預測,從......

    新AI模型可大幅提高化合物蛋白質相互作用預測可靠性

    中國科學院上海藥物研究所研究員鄭明月,副研究員張素林、李敘潼,提出了基于知識圖譜的人工智能計算模型PertKGE,并以數據驅動的形式從微擾轉錄組數據中解耦出化合物-蛋白質相互作用(CPI)。9月19日......

    OpenAI推出具備推理能力新AI模型

    據ChatGPT制造者美國開放人工智能公司(OpenAI)官網12日報道,該公司已經成功研發出一系列具備推理能力的人工智能(AI)模型,并命名為“OpenAIo1”。這些模型的獨特之處在于,其會花更長......

    學者發布無機材料AI模型,推理能力到達新高度

    松山湖材料實驗室研究員孟勝/劉淼團隊在國家自然科學基金等項目的支持下,研發了一種基于深度學習圖結構的通用預訓練力場(graph-basedpre-trainedtransformerforcefiel......

    預測蛋白質序列的新AI模型問世

    使用CARBonAra進行序列預測(示意圖)。圖片來源:瑞士洛桑聯邦理工學院科技日報北京8月8日電(記者張佳欣)瑞士洛桑聯邦理工學院開發了一種名為CARBonAra的新型人工智能(AI)驅動模型。該模......

  • <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 东京热 下载