過去兩天,高考成為了社會各界廣泛關注的話題,但與往年相比,由于今年AI大模型風靡全球,使得高考試卷也成為了檢測AI大模型“智商”的試金石。對于人類而言,IQ越高的人大多數學越強,這是因為數學考驗的是一個人的理解和推理能力,甚至很多檢測IQ的題目就是數學題,對于大模型也是如此,數學能力高低也能反映一個大模型是否“聰明”。
那么這次的高考數學題能否難倒AI大模型呢?根據搜狐科技、量子位等權威科技媒體對ChatGPT、訊飛星火、文心一言、通義千問、360智腦等主流AI大模型的橫向評測,訊飛星火居然力壓群雄,成為了解題正確率最高、“最聰明”的AI大模型。
先來看下搜狐科技的測試方法,他們選擇了2023年高考數學試卷的前10道填空題,讓五款AI大模型輪番進行回答。仔細看這10道填空題,既包括了不等式解方程解,圓形方程解和三角形方程解,還包括了GDP逐季度遞增的解法,非常全面地考驗了人類的數學計算能力,而“智力超群”的AI大模型面對高考數學題會怎樣?
根據搜狐科技得出的結論,訊飛星火答對了5道題,正確率為50%;ChatGPT和文心一言答對了4道題,正確率為40%;其他兩個大模型一道題都沒答對,等同于交了“白卷”。
接下來我們再來看量子位對五款大模型的測試,他們去掉了360智腦,但新增了公認最強的GPT-4。在 “已知函數 f ( x ) = cos ω x -1 (ω>0 ) 在區間 [0,2 π] 有且僅有3個零點 , 則ω的取值范圍是?”這道題的求解中,GPT-4給出了ω的取值范圍是(0,1/2]U{1}的錯誤答案。隨后其余的大模型也可謂是“全軍覆沒”,它們都給出了錯誤的答案。
唯獨只有訊飛星火給出了正確的答案。量子位的測試編輯心情悲喜交加地表示道:“本已經抱著再一次全軍覆沒的心情了,沒想到中文大模型(訊飛星火)力挽狂瀾!”
后來在三角函數題中,訊飛星火第一小問答案對了,但是步驟中出現了偏差,這說明訊飛星火在數學能力上還有改進空間。估計在6月9日科大訊飛發布星火V1.5之后,這種數學計算的小bug會得以修復。
最終量子位同樣制作了一張橫評匯總表,結果顯示GPT-4在排列組合、立體幾何和三角函數三道天空題中只有一道答對,在三角函數解答題中回答錯誤。而訊飛星火同樣答對了一道填空題,但在三角函數解答題中答對了一問。而其余大模型完全就是“陪跑”,沒有答對任何一道數學題。
訊飛星火數學能力一直是其優勢之一,據悉,6月9日訊飛星火迎來V1.5迭代,不僅會在數學能力方面再上新臺階,還會在開放式問答、多輪對話方面明顯升級,并在文本生成、語言理解和邏輯推理能力上持續提升。按照科大訊飛公布的三輪迭代時間表,看來星火將在10月24日實現中文超越ChatGPT、英文旗鼓相當的目標應該可以踏踏實實地一步一個腳印地抵達!