測評榜單MathEval發(fā)布,大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”
2024-03-05
近日,大模型數(shù)學(xué)能力測評基準(zhǔn)MathEval上線(官網(wǎng):https://matheval.ai),并已在官網(wǎng)發(fā)布最新測評榜單,學(xué)而思旗下九章大模型奪得冠軍。
圖:MathEval官網(wǎng)測評榜單
根據(jù)官網(wǎng)信息,MathEval由智慧教育國家新一代人工智能開放創(chuàng)新平臺聯(lián)合暨南大學(xué)、北京師范大學(xué)、華東師范大學(xué)、西安交通大學(xué)、香港城市大學(xué)共同發(fā)起,是一個專注于全面評估大模型數(shù)學(xué)能力的測評基準(zhǔn),共包含19個數(shù)學(xué)領(lǐng)域測評集、近30K道數(shù)學(xué)題目,旨在全面評估大模型在包含算術(shù),小初高競賽和部分高等數(shù)學(xué)分支在內(nèi)的各階段、難度和數(shù)學(xué)子領(lǐng)域的解題能力表現(xiàn)。
目前,涉及數(shù)學(xué)的應(yīng)用領(lǐng)域正在越來越多地使用大模型,包括直接用大模型解決數(shù)學(xué)問題、使用大模型進(jìn)行數(shù)據(jù)分析和學(xué)術(shù)研究、幫助學(xué)習(xí)輔導(dǎo)等。但行業(yè)內(nèi)此前還沒有較為全面、能覆蓋各國主流通用大模型和垂類模型的數(shù)學(xué)能力測評榜單。數(shù)學(xué)能力評測通常被包含在通用榜單或推理能力、自然科學(xué)能力的排行之中,缺乏一致的標(biāo)準(zhǔn)。因此,MathEval作為專注于大模型數(shù)學(xué)能力的測評基準(zhǔn)能夠及時上線,彌補了行業(yè)空白,對大模型領(lǐng)域在數(shù)學(xué)能力上的進(jìn)一步探索提升,可以提供非常有價值的參考。
對大模型進(jìn)行數(shù)學(xué)能力測評有一些公認(rèn)的難點:首先,各數(shù)據(jù)集的字段需要進(jìn)行統(tǒng)一,每個大模型也都有自己的一套Prompt模板和答案形式,要想給“思維方式”不同的大模型進(jìn)行統(tǒng)一的測試和比較,需要測評基準(zhǔn)根據(jù)具體情況,設(shè)計符合需求的抽取打分規(guī)則,才能從模型輸出的內(nèi)容中批量抽取出可以進(jìn)一步對比的答案。這對專業(yè)能力的要求很高,因為抽取規(guī)則的一點點改動,都會影響到最終的測評結(jié)果。
其次,要讓測評榜單的結(jié)果具備足夠的可參考性,就要使用足夠豐富全面的數(shù)據(jù)集,并盡量全面的測評市面上的大模型,這對測評方的算力也提出了很高的要求。
據(jù)悉,MathEval截至目前已測試了30個大模型(含同一模型的不同版本),且未來會加入新出現(xiàn)的大模型,不定期更新榜單。在評測過程中,MathEval團(tuán)隊使用了GPT4大模型來進(jìn)行答案抽取和答案的匹配,減少基于規(guī)則進(jìn)行評測所帶來的誤差,并根據(jù)每個模型的Prompt模板進(jìn)行了適配,以激發(fā)每個模型本身能達(dá)到的最佳效果。
從MathEval已發(fā)布的測評榜單來看,學(xué)而思旗下九章大模型在整體表現(xiàn)和中文、英文、各學(xué)段子榜單中,都具備領(lǐng)先優(yōu)勢,作為少有的專注于數(shù)學(xué)解題和講題能力的大模型,九章大模型的這一表現(xiàn)可以說是并不意外。而作為通用大模型的文心一言4.0、訊飛星火V3.5在測評中的表現(xiàn)也頗為亮眼,占據(jù)了第二、三位,均優(yōu)于GPT-4??梢哉f,國產(chǎn)大模型在數(shù)學(xué)方面的能力已經(jīng)實現(xiàn)了趕超,未來還將如何提升及落地在應(yīng)用場景,值得期待。
本文轉(zhuǎn)自:中國網(wǎng) http://szjj.china.com.cn/2024-03/04/content_42712491.html