關于911和99哪個大,這樣一道小學生難度的數學題難倒了一眾海內外AI大模子。7月17日,第一財經報道了內地外12個大模子8個都會答錯這道題的現象,大模子的數學才幹觸發商量。
從專業人員的角度看答錯這個疑問并不驚訝。在采訪中,阿里通義實驗室產品經理王曉明對第一財經表示,雷同的疑問是一個常見的數學算計和邏輯推理的疑問,也是在模子培訓和採用的過程中研發者常進行測試的case(案例),大模子答對或答錯實在是個概率疑問。
除了通義千問外,第一財經記者也聯系并采訪了多家大模子廠商,遊戲混元團隊、月之暗面Kimi、MiniMax海螺、學而思九章、網易有道等都在采訪中謎底了大模子數學差的疑問。
綜合回復來看,大模子廠商相關擔當人提到的觀點包含有,大模子還沒有精準支配數字間的運算或對照條例,同時,人類對大模子的才幹試探處于極度早期的階段。多名業內人士以為,未來需要增強底層根基模子的智能程度,以及從培訓數據層面和外部工具層面去辦理這樣的失誤,終極方案可能是提拔下一代模子的才幹。
今天記者對大模子進行了再次測試,發明多數大模子對照數字大小的才幹仍然不不亂。不過,有大模子廠商相關人士提到,行業正在對數學才幹進行特殊優化。
大模子犯錯以及此前大模子在高考數學卷中拿分低,可能是由於所測的模子對照老,這些模子沒有在數學方面做太多優化,目前業界對此有所珍視,優化后功效還是有提拔空間。大模子開闢者劉亮(假名)通知記者。
答對答錯是概率疑問鉅城娛樂
7月18日,第一財經記者再次測試了12個大模子,發明AI的答案并不不亂,不少大模子即就是用同一個問法測試也會時對時錯,數字次序換一下答案有可能就有變化。
在提問99和911哪個大時,百度文心一言、遊戲元寶、智譜清言、MiniMax海螺AI、百川智能百小應5個大模子問答對了,GPT-4o、阿里通義、月之暗面Kimi、階躍星辰躍問、字節豆包、商湯討論、零一萬物萬知7個大模子答錯了。
當記者將數字次序換為911和99哪個大時,GPT-4o和階躍星辰躍問又部門答對了。同時,差異的人用同一個大模子問同樣的疑問,也會有兩種答案,比如通義千問、海螺AI在兩位記者的測試中,一位測試發明輸出答案精確不亂,另一位在測試時則接收了過錯的答案。
不不亂的輸出背后,大模子的架構和運行機制是要點疑問,這導致AI的答覆并不是每次都一樣。
王曉明通知記者,大模子并不會像人類一樣把911和99哪個大視作比大小的疑問,大模子的謎底方式是預計下一個詞。從原理上看,現在包含有通義千問等大模子大多基于Transformer架構,專業原理本性上是做Next Token Prediction,即通過當前輸入的文本預計下一個詞出現的概率來進行培訓和答覆。
因此,從概率的角度看,大模子的精確率不可能做到100%。王曉明表示,即便用戶每次問相同的疑問,大模子的答覆和精確率可能都是變動的,大模子答對或答錯實在是個概率疑問。
遊戲混元團隊有雷同的看法。大模子全稱是語言大模子,從海量文本里吸取各種語言知識。它是一個概率模子,將輸入文本轉換成一個個token(詞元),然后去預計下一個token,并不精準的掌握數字之間的運算或對照條例(缺乏這類數學知識)。 遊戲混元團隊表示。
遊戲混元團隊通知記者,給定911、99,大模子可能就按語言懂得以為小數點11比9大,從而過錯地判定911大于99。由于大模子本身是一個概率模子,要讓它在各種場合下都能不亂的辦理這種數值算計或對照疑問對照難。
提問技能很主要
基于大模子的要點架構和運行機制疑問,提問的技能也會很大水平陰礙模子的懂得,從而陰礙答案的精確度。
大模子不以人類的思路懂得疑問,在人類的懂得里,911大還是99大這個疑問很簡樸,但在數字的世界里這個疑問是含糊的。劉亮以為,在大模子的懂得里,人類問的疑問也許不夠準確,數字有多種進制,也有差異指代,大模子要從什麼角度答覆都是疑問。
MiniMax海螺AI產品經理起迪提到,標題中的數字形式雷同于日期或版本號,模子在處理數字、字符串等數據時容易產生過錯。另一名大模子從業也通知記者,大模子也有可能是看多了版本號,以為911版本比99版本更新,或者是對這兩個數字有別的遐想。。
它(大模子)本性上還是一個語言模子,它從語言數據中吸取的是統計相關性,而這使它不擅長做條例吸取,從而不擅長歸納推理。網易有道首席科學家段亦濤也對第一財經表示,大模子可能在語料中看到版本號、日期、書的章節等樣例,而在這種場景下,911的確是比99大,所以它可能給犯錯誤的答案。
段亦濤表示,現在大模子不具有敏捷的inductive bias(歸納偏倚)的機制,雷同911和99哪個大,以及算數運算、奇偶校驗、字符串復制等其他的任務,都屬于inductive inference(歸納推理)的任務。從機械吸取的角度來看,假如但願大模子獲得這樣的才幹,需要一個歸納吸取的過程。
學而思CTO田密以為,在大模子的懂得中,911可能被拆分為9和11,而99被拆分為99,這里面11確切比9要大。但假如改下問法,問大模子哪個數字更大?99還是911,或者讓大模子step by step(逐漸)解析,大模子可能就能做對,這是由於大模子懂得用戶是要問一個數學題了,所以就會傾向于去用一個解數學題的方式去解。
王曉明在采訪中也解析了這一現象,他以為,這與模子本身預置的數理邏輯包含有培訓數據等均有關,大模子在培訓階段遭遇的場景假如更相近哪個更大?911和99,它答覆這種問法的精確率就會更高。
記者測試發明,部門大模子確切會由於精確地描述疑問、提問技能而變更為正確的答覆,但不是對所有大模子都有效。
記者查問ChatGPT-4o時,假如直接提問99和911哪個大,這樣的問法大模子的答案便是過錯的,但假如提問的內容改成哪個數字更大?911還是99,ChatGPT會直接給出正確的答案。
記者將范圍設定為嚴謹的十進制下的數字對照,Kimi得出的答案依然是911比99大。
記者也測試了零一萬物萬知,即便限定為數學語境下的數字對照(避免版本、日期的語境),萬知仍然答錯,可是假如變更提問方式,要求大模子給出謎底思路(即step by step解析的方式),同時表示答對答錯會受獎勵或懲罰(強調答案的主要性),萬知就答對了。
在大模子的答題測試中,一個有趣的現象是,當模子答覆過錯,提問者質疑或者抵賴后,多數大模子都會轉而承道歉誤,并給出了正確謎底過程和答案。
對于這種訂正才幹,王曉明辯白,這一方面是大模子預計的隨機性,第二輪答覆本就有出現正確答案的可能,另一方面,由于大模子具備高下文懂得才幹,採用者的追問實際就雷同一個調教大模子的過程,大模子會依據採用者的追問作為其下一輪預計的根基,提高其精確率。
遊戲混元團隊通知記者,當前大模子大多具備反思才幹,當用戶質疑大模子答案的時候,發憤了大模子的反思才幹,它會嘗試去改正初始答覆或嘗試用另一種思路解題,從而提拔謎底正確的概率。
起迪將這結算為一種涉及思維鏈的技能,通過率領模子逐漸深入思索,模子能夠提供更詳盡的解題步驟,這在辦理數學等復雜疑問時有助于獲得正確答案。用戶與AI之間的多輪對話本性上可以視為一種思維鏈,模子在懂得疑問后會加倍謹嚴地進行推導,從而提高謎底正確率。起迪說。
徹底辦理需要大模子升級
答不出99和911哪個大的簡樸數學疑問,但又可以幫人類做PPT、辦理代碼編程等復雜疑問,折射出當前大模子的才幹并不平衡。
遊戲混元團隊通知記者,對人類而言不難、但對大模子而言很難的疑問還有不少,比如雷同I looooooove you里有幾多個o這樣的疑問,這種數數疑問是一個難點。此外,較大或位數對照多的小數算計(涉及多位數的四則運算等),又如涉及知識和算計的單位轉換疑問(例如0145噸等于幾多磅),以及以前常測的林黛玉倒拔垂楊柳疑問等知識或常識誘導型疑問對大模子而言對照難。
就難答覆的數學疑問,業內已在思索大模子本身的局限求和決方案,大模子還未從基本上迭代的場合下,辦理方案包含有用戶自身提高提問精確性、現有大模子采用一些取巧的想法。
徹底辦理還是要靠下一代模子升級,目前要辦理需要通過hack(取巧)的方式。但換個問法、換個語言來問,可能還是會出疑問。有大模子從業者通知記者。暫時辦理方案包含有System Prompt(系統提示),可以簡樸懂得為率領大模子在固定范圍內答覆疑問。
例如通知大模子,當遭遇數字對照疑問的時候,假如沒有更多高下文,就默認當成雙精度浮點數,先補全空位,再從左到右依次對照。上述大模子從業者通知記者。
王曉明則坦言,大模子的強項還是在語言方面,盡管專業團隊已在關注大模子在數學、物理等邏輯性場景下的才幹提拔,但大模子在這一方面存在著本身才幹的限制。他通知記者,採用大模子的過程中,用戶提問方式、提示詞的優化也會陰礙到大模子答覆的精確率,用戶可在大模子採用中描畫更多提問場景、答覆范圍等。
而要徹底辦理大模子數學才幹差的疑問,業內人士以為,數學才幹不足的一大理由是大模子培訓數據中數學相關的數據占比少,要從根源上辦理數學才幹差的疑問,需要從此入手。
劉亮通知記者,大模子算不出簡樸數學題,也做不好高考數學試卷,基本上是由於模子才幹不足,但這并不是完全不能辦理。此前業內對大模子數學方面才幹的優化較少,在數學推理方面花的精力較少leo娛樂城桌面下載。做培訓語料篩選時,人們從互聯網等場所獲取數據,此中數學相關的數據占比極度少,選得較多的是天然語言相關的語料。當培訓數據沒有適合配比和篩選時,大模子參數中數學相關的只分了很少一部門,功效天然不好。
但大模子已經顯現出較好的邏輯才幹,例如寫代碼才幹還不錯,加上業內對大模子數學才幹逐步珍視起來,通過選用更優質的培訓數據、用更好的算法,我以為大模子數學方面的潛力還是很高。劉亮表示,固然業內也有質疑大模子預計下一個詞元的方式可否做好數學題的聲音,但這種方式還有許多潛力待發掘,天花板還不能確認。
遊戲混元團隊以為,要降服大模子不懂數學的疑問,一個重要的專業優化點便是給大模子高質量的領域(包含有數學)知識數據培訓,使其能夠吸取到領域里的各類知識。
在測試99和911哪個大的疑問時,學而思的九章大模子(MathGPT)給了對的答案,田密通知記者,九章大模子的特點是針對數學培訓了足夠多的數據,而且這些數據是用AI合成的數據,再來培訓AI,大模子的分析過程是模擬學生吸取數學的過程,一步步推導。
田密以為,就數學方面教育領域的容錯率較低,教育科技公司有足夠多、技術的數學數據去做培訓,通娛樂城 免儲值用大模子把這道題當成一個通用的題來處理,而針對數學領域培訓的九章大模子知道它是一道數學題,可以用數學的方式一步步推理。
提供高質量培訓數據之外,遊戲混元團隊通知記者,另一個專業優化點是集成外部工具才幹(例如算計器、代碼執行器等)來拓展模子才幹,進一步提高辦理疑問的效率和精確性。起迪也同樣提到,大模子假如在收到到一些數學疑問時,能夠主動調用工具hy娛樂城如何出金來謎底,就可以大幅提高精確率。
在月之暗面的回應中,相關擔當人提到,我們人類對大模子的才幹試探都還處于極度早期的階段,無論是大模子能做到什麼,還是大模子做不到什麼。 我們極度期望用戶在採用中能夠發明和教導更多的界線案例(Corner Case)。不管是最近的‘99和911哪個大、138和1311哪個大’,還是之前的‘straberr在線賭場遊戲規則y有幾個r’,這些界線案例的發明,有助于我們增加對大模子才幹界線的了解。