測評榜單MathEval發(fā)布，大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”

2024-03-05

近日，大模型數(shù)學(xué)能力測評基準(zhǔn)MathEval上線（官網(wǎng)：https://matheval.ai)，并已在官網(wǎng)發(fā)布最新測評榜單，學(xué)而思旗下九章大模型奪得冠軍。

ad7f83df1f8261ad047fd560e7e4472b_html_66b721575c260f72.png

圖：MathEval官網(wǎng)測評榜單

根據(jù)官網(wǎng)信息，MathEval由智慧教育國家新一代人工智能開放創(chuàng)新平臺聯(lián)合暨南大學(xué)、北京師范大學(xué)、華東師范大學(xué)、西安交通大學(xué)、香港城市大學(xué)共同發(fā)起，是一個專注于全面評估大模型數(shù)學(xué)能力的測評基準(zhǔn)，共包含19個數(shù)學(xué)領(lǐng)域測評集、近30K道數(shù)學(xué)題目，旨在全面評估大模型在包含算術(shù)，小初高競賽和部分高等數(shù)學(xué)分支在內(nèi)的各階段、難度和數(shù)學(xué)子領(lǐng)域的解題能力表現(xiàn)。

目前，涉及數(shù)學(xué)的應(yīng)用領(lǐng)域正在越來越多地使用大模型，包括直接用大模型解決數(shù)學(xué)問題、使用大模型進(jìn)行數(shù)據(jù)分析和學(xué)術(shù)研究、幫助學(xué)習(xí)輔導(dǎo)等。但行業(yè)內(nèi)此前還沒有較為全面、能覆蓋各國主流通用大模型和垂類模型的數(shù)學(xué)能力測評榜單。數(shù)學(xué)能力評測通常被包含在通用榜單或推理能力、自然科學(xué)能力的排行之中，缺乏一致的標(biāo)準(zhǔn)。因此，MathEval作為專注于大模型數(shù)學(xué)能力的測評基準(zhǔn)能夠及時上線，彌補了行業(yè)空白，對大模型領(lǐng)域在數(shù)學(xué)能力上的進(jìn)一步探索提升，可以提供非常有價值的參考。

對大模型進(jìn)行數(shù)學(xué)能力測評有一些公認(rèn)的難點：首先，各數(shù)據(jù)集的字段需要進(jìn)行統(tǒng)一，每個大模型也都有自己的一套Prompt模板和答案形式，要想給“思維方式”不同的大模型進(jìn)行統(tǒng)一的測試和比較，需要測評基準(zhǔn)根據(jù)具體情況，設(shè)計符合需求的抽取打分規(guī)則，才能從模型輸出的內(nèi)容中批量抽取出可以進(jìn)一步對比的答案。這對專業(yè)能力的要求很高，因為抽取規(guī)則的一點點改動，都會影響到最終的測評結(jié)果。

其次，要讓測評榜單的結(jié)果具備足夠的可參考性，就要使用足夠豐富全面的數(shù)據(jù)集，并盡量全面的測評市面上的大模型，這對測評方的算力也提出了很高的要求。

據(jù)悉，MathEval截至目前已測試了30個大模型（含同一模型的不同版本），且未來會加入新出現(xiàn)的大模型，不定期更新榜單。在評測過程中，MathEval團(tuán)隊使用了GPT4大模型來進(jìn)行答案抽取和答案的匹配，減少基于規(guī)則進(jìn)行評測所帶來的誤差，并根據(jù)每個模型的Prompt模板進(jìn)行了適配，以激發(fā)每個模型本身能達(dá)到的最佳效果。

從MathEval已發(fā)布的測評榜單來看，學(xué)而思旗下九章大模型在整體表現(xiàn)和中文、英文、各學(xué)段子榜單中，都具備領(lǐng)先優(yōu)勢，作為少有的專注于數(shù)學(xué)解題和講題能力的大模型，九章大模型的這一表現(xiàn)可以說是并不意外。而作為通用大模型的文心一言4.0、訊飛星火V3.5在測評中的表現(xiàn)也頗為亮眼，占據(jù)了第二、三位，均優(yōu)于GPT-4?？梢哉f，國產(chǎn)大模型在數(shù)學(xué)方面的能力已經(jīng)實現(xiàn)了趕超，未來還將如何提升及落地在應(yīng)用場景，值得期待。

本文轉(zhuǎn)自：中國網(wǎng) http://szjj.china.com.cn/2024-03/04/content_42712491.html

上一篇：出國了，亮相了，獲獎了！——學(xué)而思在CES2025

下一篇：學(xué)而思聯(lián)合谷歌等發(fā)起全球大模型數(shù)學(xué)解題競賽，120支隊伍同場競技

undertaleのエロ动漫_yw139.ccm免费观看网站_巨胸爆乳露双奶头无遮挡_小尤奈无码视频

新聞中心

News center

測評榜單MathEval發(fā)布，大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”

undertaleのエロ动漫_yw139.ccm免费观看网站_巨胸爆乳露双奶头无遮挡_小尤奈无码视频

新聞中心

News center

測評榜單MathEval發(fā)布，大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”

測評榜單MathEval發(fā)布，大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”