undertaleのエロ动漫_yw139.ccm免费观看网站_巨胸爆乳露双奶头无遮挡_小尤奈无码视频

網(wǎng)站地圖
關(guān)于我們
企業(yè)簡介
文化與價值觀
人才招聘
聯(lián)系我們
科技創(chuàng)新
教育科技
投資者關(guān)系
公司治理
新聞及活動
股票信息
財務(wù)信息
戰(zhàn)略投資
投資策略
投資方向
投資優(yōu)勢
投資品牌
ESG
ESG戰(zhàn)略
ESG管理
定期報告
誠聘英才
社會招聘
校園招聘
GlobalTalent
法律聲明
職業(yè)準(zhǔn)則
廉政合規(guī)

新聞中心

News center

測評榜單MathEval發(fā)布,大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”

2024-03-05

近日,大模型數(shù)學(xué)能力測評基準(zhǔn)MathEval上線(官網(wǎng):https://matheval.ai),并已在官網(wǎng)發(fā)布最新測評榜單,學(xué)而思旗下九章大模型奪得冠軍。

ad7f83df1f8261ad047fd560e7e4472b_html_66b721575c260f72.png

圖:MathEval官網(wǎng)測評榜單

根據(jù)官網(wǎng)信息,MathEval由智慧教育國家新一代人工智能開放創(chuàng)新平臺聯(lián)合暨南大學(xué)、北京師范大學(xué)、華東師范大學(xué)、西安交通大學(xué)、香港城市大學(xué)共同發(fā)起,是一個專注于全面評估大模型數(shù)學(xué)能力的測評基準(zhǔn),共包含19個數(shù)學(xué)領(lǐng)域測評集、近30K道數(shù)學(xué)題目,旨在全面評估大模型在包含算術(shù),小初高競賽和部分高等數(shù)學(xué)分支在內(nèi)的各階段、難度和數(shù)學(xué)子領(lǐng)域的解題能力表現(xiàn)。

目前,涉及數(shù)學(xué)的應(yīng)用領(lǐng)域正在越來越多地使用大模型,包括直接用大模型解決數(shù)學(xué)問題、使用大模型進(jìn)行數(shù)據(jù)分析和學(xué)術(shù)研究、幫助學(xué)習(xí)輔導(dǎo)等。但行業(yè)內(nèi)此前還沒有較為全面、能覆蓋各國主流通用大模型和垂類模型的數(shù)學(xué)能力測評榜單。數(shù)學(xué)能力評測通常被包含在通用榜單或推理能力、自然科學(xué)能力的排行之中,缺乏一致的標(biāo)準(zhǔn)。因此,MathEval作為專注于大模型數(shù)學(xué)能力的測評基準(zhǔn)能夠及時上線,彌補了行業(yè)空白,對大模型領(lǐng)域在數(shù)學(xué)能力上的進(jìn)一步探索提升,可以提供非常有價值的參考。

對大模型進(jìn)行數(shù)學(xué)能力測評有一些公認(rèn)的難點:首先,各數(shù)據(jù)集的字段需要進(jìn)行統(tǒng)一,每個大模型也都有自己的一套Prompt模板和答案形式,要想給“思維方式”不同的大模型進(jìn)行統(tǒng)一的測試和比較,需要測評基準(zhǔn)根據(jù)具體情況,設(shè)計符合需求的抽取打分規(guī)則,才能從模型輸出的內(nèi)容中批量抽取出可以進(jìn)一步對比的答案。這對專業(yè)能力的要求很高,因為抽取規(guī)則的一點點改動,都會影響到最終的測評結(jié)果。

其次,要讓測評榜單的結(jié)果具備足夠的可參考性,就要使用足夠豐富全面的數(shù)據(jù)集,并盡量全面的測評市面上的大模型,這對測評方的算力也提出了很高的要求。

據(jù)悉,MathEval截至目前已測試了30個大模型(含同一模型的不同版本),且未來會加入新出現(xiàn)的大模型,不定期更新榜單。在評測過程中,MathEval團(tuán)隊使用了GPT4大模型來進(jìn)行答案抽取和答案的匹配,減少基于規(guī)則進(jìn)行評測所帶來的誤差,并根據(jù)每個模型的Prompt模板進(jìn)行了適配,以激發(fā)每個模型本身能達(dá)到的最佳效果。

從MathEval已發(fā)布的測評榜單來看,學(xué)而思旗下九章大模型在整體表現(xiàn)和中文、英文、各學(xué)段子榜單中,都具備領(lǐng)先優(yōu)勢,作為少有的專注于數(shù)學(xué)解題和講題能力的大模型,九章大模型的這一表現(xiàn)可以說是并不意外。而作為通用大模型的文心一言4.0、訊飛星火V3.5在測評中的表現(xiàn)也頗為亮眼,占據(jù)了第二、三位,均優(yōu)于GPT-4??梢哉f,國產(chǎn)大模型在數(shù)學(xué)方面的能力已經(jīng)實現(xiàn)了趕超,未來還將如何提升及落地在應(yīng)用場景,值得期待。

本文轉(zhuǎn)自:中國網(wǎng) http://szjj.china.com.cn/2024-03/04/content_42712491.html