• <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 發布時間:2024-07-04 07:35 原文鏈接: AI參加高考,為何偏科嚴重

    大模型參加高考,能考多少分?近日,科技創新交流平臺極客公園發布高考新課標Ⅰ卷大模型評測報告,在參試大模型中,GPT-4o以562分的成績排名文科第一。參加評測的8款國產大模型中,字節跳動旗下的豆包成績是542.5分,其后依次是百度文心一言4.0的537.5分和百川智能“百小應”的521分。本次大模型高考評測與河南省考卷完全相同,以上3款國產大模型均超過河南文科一本線521分。GPT-4o的562分在河南文科考生中可排名8811名,相當于前2.45%;豆包處于前4.27%,接近頂尖大模型的水平。

    文綜評測中,GPT-4o獲237分,優于多數人類考生。國產大模型中,豆包文綜成績最高,得分224.5分,其中歷史達到82.5分,在所有9款大模型中排第一。地理考卷有大量圖片考題,圖像理解能力較強的GPT-4o得到最高分,但僅有68分。

    語文、英語評測中,多家大模型在客觀題上拿滿分。但寫作文是弱項。多次參加全國高考語文閱卷的北京市級骨干教師、懷柔區語文學科帶頭人夏老師是本次評測的作文閱卷人。她認為,“AI作文有清晰完整的結構,有邏輯性,語言通順流暢,但缺乏感情和感染力”。同理,在40分的英語寫作考試中,大模型的最高分只有29分,主要丟分在表達空泛、缺少細節上。

    值得注意的是,大模型高考呈現出嚴重的偏科現象:數學、物理、化學等數理學科全線不及格,總分最高分不到480。而河南理科一本線是511分。最頂尖的大模型無法進入理科考生的前30%。

    數學評測中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(滿分150分)。大模型能準確運用求導公式和三角函數定理,但面對較為復雜的推導和證明問題就很難得分。物理有一道送分的選擇題,人類考生根據“時間不會倒流”可以輕易選對答案,大模型則全軍覆沒。

    “目前的大語言模型本質上是文字接龍,基于海量資料,預測下一個最可能出現的詞句。通過不斷預測,生成連貫和完整的文本。應對文科考試,大模型的用詞不準或用了近義詞,不太影響評分。但理科考試考驗推理和計算,比如一道題有五步推理,大模型走偏一步,答案就全錯。而且大模型的訓練數據中,文科語料要遠遠大于理科語料。”國內一位大模型研發專家告訴科技日報記者。

    近期,有一些國內外大模型在奧數題評測(非奧數現場比賽)上拿到不錯的成績。對此,該專家解釋,用大家都訓練過的公開數據集評測,大模型的準確率很高;但用比較新的數據集去測試,準確率就大大下降。最新的高考題是哪家大模型都沒有訓練過的,考驗的是數學推理和計算的泛化能力,這就暴露了大模型的短板。

    北京大學計算語言學研究所教授穗志方近日也表示,大模型在中國高考、公務員考試和美國SAT考試等標準化考試中的表現是優劣兼具的。一些大模型在SAT數學測試中表現優異,但在復雜推理或特定知識領域中的表現不夠出色。

    “在大模型內在機理沒有探究清楚的情況下,我們目前的評測路徑只能依靠從外部表現來推測內在能力。”穗志方說,未來應發展更系統的評測大綱、更具挑戰的評測任務、更科學的評測方法。AI是否比人類更適合考試?尚未可定論。

     


    相關文章

    AI大模型助力前列腺癌無創精準診斷與分級

    海軍軍醫大學第二附屬醫院(上海長征醫院)泌尿外科教授任善成團隊聯合國內多家單位,構建了一種基于人工智能(AI)的前列腺癌影像—病理基礎模型,可從磁共振影像中無創預測腫瘤侵襲性,且診斷性能顯著優于現有臨......

    AI大模型助力前列腺癌無創精準診斷與分級

    海軍軍醫大學第二附屬醫院(上海長征醫院)泌尿外科教授任善成團隊聯合國內多家單位,構建了一種基于人工智能(AI)的前列腺癌影像—病理基礎模型,可從磁共振影像中無創預測腫瘤侵襲性,且診斷性能顯著優于現有臨......

    未來智能社會什么樣?從AI到AI+

    8月26日國發〔2025〕11號頒布了《國務院關于深入實施“人工智能+”行動的意見》這一重要文件,其中特別強調“人機協同、跨界融合、共創分享的智能經濟和智能社會新形態”,其核心就是要積極構建“人、機(......

    未來智能社會什么樣?從AI到AI+

    8月26日國發〔2025〕11號頒布了《國務院關于深入實施“人工智能+”行動的意見》這一重要文件,其中特別強調“人機協同、跨界融合、共創分享的智能經濟和智能社會新形態”,其核心就是要積極構建“人、機(......

    AI驅動腦部設備助力癱瘓患者操控機械臂

    一項研究報告稱,一名局部癱瘓男子借助一款部分由人工智能(AI)控制的非侵入性腦部設備,成功實現了對機械臂的操控。此外,在執行屏幕端任務時,該AI輔助設備的表現比患者單獨使用設備好4倍。腦機接口能夠捕捉......

    AI驅動腦部設備助力癱瘓患者操控機械臂

    一項研究報告稱,一名局部癱瘓男子借助一款部分由人工智能(AI)控制的非侵入性腦部設備,成功實現了對機械臂的操控。此外,在執行屏幕端任務時,該AI輔助設備的表現比患者單獨使用設備好4倍。腦機接口能夠捕捉......

    AI創新法“丈量”厄爾尼諾南方濤動未來變化

    近日,中國科學院海洋研究所研究員王凡團隊聯合南京信息工程大學教授張榮華、嶗山實驗室研究員蔡文炬等,在《自然·通訊》發表研究論文。該研究借助觀測數據約束的深度學習方法,大幅降低了對全球關鍵氣候現象厄爾尼......

    AI創新法“丈量”厄爾尼諾南方濤動未來變化

    近日,中國科學院海洋研究所研究員王凡團隊聯合南京信息工程大學教授張榮華、嶗山實驗室研究員蔡文炬等,在《自然·通訊》發表研究論文。該研究借助觀測數據約束的深度學習方法,大幅降低了對全球關鍵氣候現象厄爾尼......

    AI“副駕”增強腦機接口操控力

    美國科學家研究發現,一個由人工智能(AI)擔任副駕的腦機接口或能讓癱瘓人士更好地完成任務。該技術能讓癱瘓受試者在移動計算機光標或操作機械臂這類任務中的表現提升為原先的近4倍。相關研究9月1日發表于《自......

    AI“副駕”增強腦機接口操控力

    美國科學家研究發現,一個由人工智能(AI)擔任副駕的腦機接口或能讓癱瘓人士更好地完成任務。該技術能讓癱瘓受試者在移動計算機光標或操作機械臂這類任務中的表現提升為原先的近4倍。相關研究9月1日發表于《自......

  • <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 东京热 下载