高考蓋住各類學科及題型,同時因其開考前的絕密性,被當作中國最具權威的測驗之一。這一面向人類設計的高難度綜合性測試,現在普遍被研究者用于察訪大模子的智能程度。
在前不久高考解散后,上海人工智能實驗室旗下司南評測體系OpenCompass選取了7個大模子進行高考語數外全卷才幹測試。6月19日, OpenCompass發表了首個大模子高考全卷評測結局。
語數外三科加起來的滿分為420分,此次高考測試結局顯示,阿里通義千問2-72B排名第一,為303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能實驗室的文人·浦語20排名第三,三個大模子的得分率均過份70%。來自法國大模子初創公司的Mistral排名末尾。
大老爺娛樂城app 此次測試的模子差包你發娛樂城 會員別來自阿里巴巴、零一萬物、智譜AI、上海人工智能實驗室、法國Mistral的開源模子,以及來自OpenAI的閉源模子GPT-4o。實驗室表示,因無法確認閉源模子的更新時間,為公正起見,此次評測沒有納入商用閉源模子,僅引入GPT-4o作為評測參考。這次選擇介入高考的考生均在高考前(hy娛樂城玩法2025年4月-6月)開源,避免了刷題風險。
從結局來看,大模子的語文、英語測驗程度普遍不錯,但數學都不合格,最高分也只有75分,來自文人·浦語20,其次是GPT-4o,得分73分。語文最高分是通義千問,英語最高分是GPT-4o。
在數學方面大模子還有很大的提拔空間。數學關乎復雜推理相關才幹,這是大模子普遍面對的困難,也是大模子在金融、工業等要求可信的場景落地需要的關鍵才幹。
上海人工智能實驗室領軍科學家林達華此前在采訪中對第一財經介紹,復雜推理關系到落地應用時大模子的可信性,例如在金融這樣的場景下不能在數字上有差錯,會對數學上的可信性有較高的要求。另有跟著大模子進入商用,若要解析一家公司的財報,甚至是工業領域要去解析一些專業文檔,這時數學方面的算計才幹就會成為一個壁壘。
目前許多大模子的應用場景是客服、聊天等等,在聊天場景一本正經胡說八道陰礙不太大,但它很難在極度嚴厲的商務情況去落地。林達華此前表示。
對于此次測試細節,上海人工智能實驗室介紹,評測采用全國新課標I卷,語數外三科全卷測試,包含有客觀題與主觀題。成果由具備高考成卷經驗的教師匿名人工判分,閱卷開始前,閱卷老師未被示知答卷均由模子生成,使閱卷老師完全以面臨真實考生的尺度評判答覆功效。
值得注意的是,大模子出錯誤的方式和人類考生有不同,從實踐上來看閱卷教大福娛樂城幣值師們不完全安適給大模子評分,因此存在有標題誤判的可能。實驗室表示,每個標題都約請了至少三位教師評閱取均分,團隊對分差較大的標題還進行了再次審核,貼身高考真實閱卷尺度。
實驗室表示,在打分前,教師們并未被示知答案由大模子生成,但由于有的模子會存在完全不懂得題意導致亂答、重復生成、答覆更像分析而非謎底的疑問,教師們在閱卷過程中根本都會和團隊確定這些場合是否是正常場合,團隊會要求教師將離譜的過錯直接視為答題過錯,分析類型的答覆以是否涵蓋正確解題過程作為唯一準則。
在完工所有大模子答卷的評卷工作后,閱卷老師被示知所評考生的真實地位為大模子。研究人員同時約請各科老師對大模子表現進行了整體解析,為模子才幹提拔謀略提供參考。
語文方面,教師們以為,模子的當代文閱讀懂得才幹普遍較強,可是差異模子的文言文閱讀懂得才幹差距較大。大模子作文更像問答題,固然有針對性但缺乏修飾,幾乎不存在人類考生都會採用舉例論證、任你博娛樂城會員引用論證、名人名言和人物素材等手法 。多數模子無法懂得本體喻體暗喻等語文概念。語言中的一些潛臺詞,大模子尚無法完全懂得。
在數學試卷上,教師們發明,大模子的主觀題答覆相對雜亂,且過程具有疑惑性,甚至出現過程過錯但得到正確答案的場合。大模子的公式影像才幹較強,可是無法在解題過程中敏捷引用。
英語則整體表現優良,但部門模子由于難受應題型,在七選五、完形填空等題型得分率較低。大模子英語作文普遍存在因超出字數限制而扣分的場合,而人類考生多由於字數不夠扣分。
此外,一些教師提出,由于全部答覆沒有卷面,所以在作文的評判上會存在1-2分的誤差。