• <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 發布時間:2024-09-26 09:53 原文鏈接: 華為高管談存儲創新:漂亮的存儲成就聰明的AI

    人工智能大模型時代,各行各業對計算服務提出各種新的需求,作為“三大件”之一的存儲需要怎樣應變?對此,華為公司副總裁、數據存儲產品線總裁周躍峰有許多切身感受。

    “存儲的創新是由應用驅動的,上層應用變了,存儲一定要變化,否則就不是一個負責任的存儲廠商。”在華為全聯接大會2024期間,接受《中國科學報》等媒體專訪時,周躍峰開門見山。

    他說,當前許多用戶的AI建設正處于初級或探索階段,但“數據準備”這件事可以從現在開始。存儲行業的創新,也正圍繞“數據準備”和“AI-Ready”展開。

    周躍峰(左)和華為閃存存儲領域總裁黃濤接受媒體采訪。華為供圖


    面向AI訓練的存儲:“做不好會更‘缺電’”

    眾所周知,大模型訓練系統對算力需求很大,計算密度空前。與此同時,這類計算對數據吞吐量的要求也與時俱增。

    “這對于存儲來說,首要就是快速地將數據源源不斷送上去。”周躍峰說,以往計算系統對存儲是沒有“快速”這個要求的,但現在,大規模參數的模型訓練同時意味著對海量大數據的學習,計算系統需要十倍、數十倍的數據吞吐和帶寬。“如果讓機器在那兒等數據,那就是空轉。”

    聯想到此前業界戲稱“大模型訓練的盡頭是用電”,周躍峰詼諧地說:“如果存儲做不好,我們的訓練系統就更‘缺電’了。”

    近期,中國移動將華為AI存儲用于大模型訓練,實現150PB單存儲集群、8TB/s帶寬和2.3億IOPS的能力,端到端訓練效率提升5%。

    “這證明使用AI存儲可以達成AI訓練不中斷、不空轉的目標。”周躍峰說,華為和中國移動這一實踐,算是為后續更大規模大模型訓練“打了樣兒”。

    存儲系統的第二個應變,則是要面對越來越復雜的計算集群。

    “萬卡、十萬卡的AI訓練系統,集群內部網絡互聯關系非常復雜,人們期待存儲系統能夠跟萬卡、十萬卡級別的訓練系統直連,而且能夠共享存儲數據。”周躍峰舉例說,美國Meta公司用于訓練Llama3的存儲系統,基于目前公開的信息是由8100臺服務器搭建而成,內部互聯、通訊等非常復雜。

    他介紹說,華為新推出的AI存儲——OceanStor A800,單存儲集群(128臺設備構成)就能支持十萬卡級訓練集群,不僅性能得到了提升,空間占用和故障率也大大降低。

    面向AI推理的存儲:聰明AI背后的漂亮存儲

    AI訓練集群之外,與應用和場景更為貼近的是AI推理實現。

    “現在用大模型產品,問一句答一句,馬上就能得到答案,這是‘快思考’;但其實人區別于機器,人有大量的慢思考,許多問題都需要慢慢梳理邏輯,慢慢想出解決之道。”周躍峰說,要讓AI變得更“聰明”,像人一樣也有“慢思考”,需要存儲發揮作用。

    AI怎樣產生“慢思考”?他告訴記者,關鍵在于推理過程中的每一次思考結果都要記下來:“這樣未來再有相同問題就不需要重新計算了,可以以存代算,這樣整個系統就會更快、性價比更高。”

    周躍峰稱之為“長記憶內存型存儲”,在這類存儲中,存儲作為內存的擴展,以分級的方式實現了長周期的記憶能力,甚至是終生記憶。

    “人的一些思考是需要通過推理慢慢梳理邏輯,過程中有些‘素材’是現成的,只需要把記憶中的內容直接‘剪切’進來就可以了。”周躍峰說,如果每個節點都要重新計算,再加上是在復雜的層層邏輯上計算,“這個‘腦袋’恐怕要炸”。

    他特別談到,推理相對訓練而言,是一個“弱算力、強緩存”的需求,就如人類大腦一樣,不同腦區的構造和功能有所區分,用于推理的存儲也可以選擇不同類型的存儲介質進行“混搭”(如高帶寬存儲和DDR、SSD等介質協同),從而可以實現以相對經濟可靠的方式構造出“漂亮的存儲”。

    OceanStor A800就集成了這一理念,成為業界首款提供長記憶能力的存儲。據介紹,它通過“多級鍵-值緩存(KV-Cache)機制”將所有的思考結果持久化保存并高效使用,讓大模型推理具備長記憶能力,以減少大模型在預填充階段的重復計算。如此,客戶推理的時延可降低近八成,單個計算卡的吞吐量提升約2/3,實現了推理體驗提升的同時降低成本。

    “人腦有時也記不住一些信息,但可以通過查詞典、上網查資料來彌補。存儲也是這個道理,沒必要都是比較昂貴的、可以即時訪問的‘高級內存’,以存代算的系統是可行的。”周躍峰說:“所以推理系統要想做得好,一定要有漂亮的存儲。”

    存儲“必須強調安全”

    采訪中,周躍峰多次強調存儲安全的重要性。

    “國內一些所謂中高端存儲,都沒有集成數據安全相關的功能,這讓人很不解。”他說,一方面,中國是全球范圍內勒索病毒發生最頻繁的區域,另一方面,中國也是許多企業最不關心數據安全和保護的區域,“令人很困惑”。

    周躍峰覺得,存儲應從被動應對攻擊走向主動全面防護。企業在構建存儲系統時要注重建設備份存儲和多層防勒索機制,這就好比保險箱在遭到暴力撬鎖時,要有發出警報聲并再加一把鎖的反應。

    “我們認為,存儲既要有其功能,也要在發生勒索事件時及時‘關門’的能力。”在周躍峰看來,避免人因損害等數據的內生安全,應成為存儲的基本要求甚至強制要求,否則會留下重大隱患:“有時候數據的安全問題一旦爆發就是0和1的區別,數據丟了就是丟了。”

    存、算、網須緊密協同

    在華為全聯接大會2024期間,中國工程院院士倪光南在相關主題發言中談到,智算集群建設就好比構建一個足球冠軍團隊,不僅需要有優秀球員,還需要球員之間的協同和配合以達到最高效能。智算集群是一個復雜工程系統,而不是簡單的軟硬件的堆砌,它要求“3+1”算力體系,即存、算、網和服務的緊密協同。

    他說,也正是基于復雜工程系統思維,智算集群在算力規模、算力利用率、集群可靠性等關鍵指標上,才可以持續“挑戰”和“對抗”源于單模塊、單機、單系統的各種物理極限和物理失效問題。

    “以國內剛剛建成的某運營商超大規模集群為例,它共含近2萬張算卡,2000多臺智算設備,近8萬根線纜互聯,700多臺RoCE高速交換機,以及800多臺通用計算、存儲設備,10萬+光模塊占用1千多個機柜。數量巨大的這些設備之間相互交織互聯,任何一個關鍵點出現問題都可能影響訓練任務中斷,“一卡斷,萬卡停”。

    “一個典型的超大規模集群一年的運營成本超過億元,假設由于各種單點故障導致了訓練時間上5%的浪費,都會帶來上千萬元的直接經濟損失。”倪光南說。

    周躍峰對上述觀點無比認同。“西方發達國家在構建AI基礎設施的時候,是存、算、網協同發展的。”他談到,英偉達構建的AI超級計算機——DGX SuperPOD,不單單是靠GPU,它收購了Mellanox這家網絡公司,同時跟許多存儲廠商合作,搭建了許多私有協議,最終才搭建出了這臺全球超算排名前十的“巨無霸”。

    “如果有所謂專家只是學計算機的,不懂網絡、不知存儲,他一定不能領導整個IT基礎設施的建設和發展。”周躍峰說。

     


    相關文章

    新方法可提高圖神經網絡處理數據的準確率

    山西大學智能信息處理研究所團隊在圖神經網絡研究方面取得重要進展,相關成果5月23日發表于人工智能領域國際期刊《IEEE模式分析與機器智能學報》(IEEETransactionsonPatternAna......

    電影《749局》科影融合特別場舉行

    原文地址:http://news.sciencenet.cn/htmlnews/2024/10/531421.shtm10月11日,科幻電影《749局》科影融合特別場在京舉行。電影主創團隊與科技領域相......

    甘肅林業職業技術大學揭牌成立

    10月11日,甘肅省迎來了職業教育領域的一個重要里程碑——甘肅林業職業技術大學正式揭牌成立。這一歷史性時刻標志著歷經六十八載發展的甘肅省唯一一所林業類高等院校,正式邁入了本科教育的新階段,開啟了新的征......

    守護“水塔”,在“世界屋脊”上打一場攻堅戰

    ”標志性科考活動獲系列重大突破 “第二次青藏科考標志性科考活動守護水塔‘一原兩湖三江’科考主體任務已經基本完成,這次科考從天到地、從冰到水取得了全方位的進展。”第二次青藏科考隊隊長、中國科學......

    關于確定2024年國家環境健康管理試點名單的通知

    關于確定2024年國家環境健康管理試點名單的通知北京市、河北省、內蒙古自治區、遼寧省、黑龍江省、江蘇省、浙江省、江西省、山東省、湖北省、湖南省、廣東省、重慶市、四川省、貴州省、陜西省、青海省生態環境廳......

    首個菊科多組學數據平臺AMIR發布

    10月8日,華中農業大學果蔬園藝作物種質創新與利用全國重點實驗室、藥用植物資源可持續利用團隊梅之南教授和楊慶勇教授課題組,發布了首個專門面向菊科植物的多組學數據庫平臺——AsteraceaeMulti......

    南郵“金牌教練”:清醒狀態下“時時在線”

    實驗桌上堆放著精密儀器和焊接工具,電腦上是正在運行的電路圖,一頁頁寫滿了數據、畫滿了圖樣的紙張在桌面鋪開,各式或大或小的電子元件前,南京郵電大學工程實驗教學部創新中心副主任郝學元正在埋首研制電工電子實......

    中國計量大學主持制定的兩項國家標準正式發布

    近日,記者從中國計量大學獲悉,該校生命科學學院蜜蜂與蜂產品學研究團隊主持的兩項推薦性國家標準《GB/T44349-2024 蜂花粉總多酚的檢測福林酚試劑比色法》和《GB/T44350-202......

    多級賦碼追溯柔性包裝生產線研制與應用通過鑒定

    10月10日,由廣東省機械行業協會組織并主持召開的“面向軟性物料的多級賦碼追溯柔性包裝生產線研制與應用”項目科技成果鑒定會議在廣東佛山舉行。經專家鑒定,該項目成果總體技術水平達到國際先進水平。記者獲悉......

    我國科學家獲得全球首個純合基因編輯橡膠苗

    近日,中國熱帶農業科學院橡膠研究所組培與轉基因團隊在全球率先獲得了橡膠樹CRISPR/Cas9純合基因編輯橡膠苗。相關研究成果在線發表于《經濟作物和產品》(IndustrialCropsandProd......

  • <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 东京热 下载