国产6699视频在线观看_女人爽到喷水的视频大全_亚洲欧美日韩国产视频亚洲欧美综合日韩久久_中文字幕无码久久东京热_av电影中文一区

 
首頁(yè) > 點(diǎn)評(píng) >
 
 

"AI家教"上線?搜狐科技實(shí)測(cè)好未來(lái)MathGPT:小學(xué)數(shù)學(xué)考試能拿90分

2023-08-27 02:00:23  來(lái)源:搜狐科技

8月24日,在好未來(lái)20周年直播活動(dòng)中,CTO田密宣布好未來(lái)自研的數(shù)學(xué)領(lǐng)域千億級(jí)大模型MathGPT正式上線并開(kāi)啟公測(cè)。

好未來(lái)介紹,MathGPT是面向全球數(shù)學(xué)愛(ài)好者和科研機(jī)構(gòu),以解題和講題算法為核心的數(shù)學(xué)垂直領(lǐng)域的大模型,也是國(guó)內(nèi)首個(gè)專(zhuān)為數(shù)學(xué)打造的大模型。

MathGPT是否意味著“AI家教”成為可能?搜狐科技實(shí)測(cè)后發(fā)現(xiàn)MathGPT能夠順利完成小學(xué)試卷并且給出清晰的解答。在與GPT-4、文心一言的橫向?qū)Ρ戎校琈athGPT在數(shù)學(xué)應(yīng)用題能力上表現(xiàn)優(yōu)于文心一言、不如GPT-4。


(相關(guān)資料圖)

作為垂直于教育的數(shù)學(xué)領(lǐng)域大模型,MathGPT比起通用大模型能夠更細(xì)致地拆解題干、提供重難點(diǎn)提示,也將有助于學(xué)生更好地吸收知識(shí)點(diǎn)。

田密表示,“好未來(lái)在數(shù)學(xué)的數(shù)據(jù)和業(yè)務(wù)上有20年的積累,有大量的教育數(shù)據(jù)的積累和持續(xù)生產(chǎn)教育數(shù)據(jù)的能力,所以選擇做這個(gè)難而正確的事情?!焙梦磥?lái)希望用自己在數(shù)學(xué)和AI上的多年積累,做好AI大模型時(shí)代的數(shù)學(xué)基礎(chǔ)工作。

小學(xué)數(shù)學(xué)考試能拿90分

此前,國(guó)內(nèi)外巨頭的大模型都被冠上“文科生”的名號(hào),在翻譯、內(nèi)容概括摘要、理解文本和生成對(duì)話等方面表現(xiàn)出色,但涉及邏輯與計(jì)算問(wèn)題時(shí)會(huì)出現(xiàn)胡言亂語(yǔ)的情況。

好未來(lái)團(tuán)隊(duì)指出,大模型“偏科”問(wèn)題是因LLM模型的自身特點(diǎn)決定的。他們此前表示,“LLM大模型來(lái)自對(duì)海量語(yǔ)言文本的訓(xùn)練,因此最擅長(zhǎng)語(yǔ)言處理?!?/p>

基于此,好未來(lái)的MathGPT結(jié)合大語(yǔ)言模型和計(jì)算引擎,大語(yǔ)言模型負(fù)責(zé)理解題目、分步解析,并在合適的步驟自行調(diào)用計(jì)算引擎,以提高題目解答正確率。

進(jìn)入MathGPT首頁(yè),有小學(xué)、初中與高中三個(gè)不同程度的數(shù)學(xué)題難度。其中題目類(lèi)型包含了找規(guī)律、邏輯分析、運(yùn)算求解、隨機(jī)現(xiàn)象、表達(dá)論述等。

用戶(hù)可以選擇不同類(lèi)型的數(shù)學(xué)題目進(jìn)行針對(duì)性訓(xùn)練,也可以直接通過(guò)底部的對(duì)話框向MathGPT提問(wèn)。用戶(hù)可以通過(guò)文字或圖片方式上傳數(shù)學(xué)題,即可得到對(duì)話式的解答反饋,也可以通過(guò)“隨機(jī)來(lái)一題”的按鈕,隨機(jī)生成數(shù)學(xué)題目并由系統(tǒng)給出解答。

搜狐科技隨機(jī)選取了一份小學(xué)數(shù)學(xué)考卷的前10題,包含簡(jiǎn)單的幾何、找規(guī)律以及算數(shù)題,MathGPT能夠回答正確9題,并且梳理出了解題邏輯以及考點(diǎn)。

會(huì)解函數(shù),不會(huì)解方程

據(jù)MathGPT官網(wǎng)顯示,MathGPT的數(shù)學(xué)計(jì)算能力已覆蓋小學(xué)、初中、高中的數(shù)學(xué)題,題目類(lèi)型涵蓋計(jì)算題、應(yīng)用題、代數(shù)題等多個(gè)類(lèi)型,還可以針對(duì)題目進(jìn)行追問(wèn),暫未開(kāi)放數(shù)學(xué)之外的問(wèn)答互動(dòng)。

搜狐科技隨機(jī)搜索一套高中數(shù)學(xué)題,通過(guò)圖片提問(wèn)的方式輸入指令。

在五個(gè)題目中,僅有第三題的幾何圖片無(wú)法直接轉(zhuǎn)化為文字指令,其他四題MathGPT均能夠準(zhǔn)確將公式與數(shù)學(xué)符號(hào)轉(zhuǎn)化為文字。

在準(zhǔn)確率上,四題答案均正確,并且解題過(guò)程完整,包含了分析題干、詳解題目,也提煉出了題目所考核的知識(shí)點(diǎn),但其中兩題的分析過(guò)程語(yǔ)言出現(xiàn)了英文。

但在解方程時(shí),搜狐科技輸入兩道簡(jiǎn)單的一元一次方程求X或Y值的題目,其中一題MathGPT答案錯(cuò)誤,并且解題方法也是錯(cuò)誤混亂的。

第二題雖然MathGPT給出了正確的結(jié)果,但在解答過(guò)程中的推理都是錯(cuò)誤的。

數(shù)學(xué)應(yīng)用題解答能力不如GPT-4、優(yōu)于文心一言

根據(jù)MathGPT技術(shù)報(bào)告顯示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考數(shù)學(xué)和Math401等6個(gè)公開(kāi)數(shù)學(xué)評(píng)測(cè)集合的測(cè)試結(jié)果中,好未來(lái)的MathGPT取得了多項(xiàng)測(cè)試的最高分?jǐn)?shù)。同時(shí),MathGPT在C-Eval的初高中的全科測(cè)試集合上也均有不錯(cuò)的表現(xiàn)。

基于此,搜狐科技選取三種不同難度的應(yīng)用題,同時(shí)對(duì)MathGPT、GPT-4和文心一言進(jìn)行測(cè)試。

在難倒一眾大模型“文科生”的雞兔同籠題目上,搜狐科技以“雞兔同籠,頭共20個(gè),足共62只,求雞與兔各有多少只?”該題目對(duì)三個(gè)大模型進(jìn)行測(cè)試,均回答正確。其中,文心一言與MathGPT的解題邏輯相比GPT-4會(huì)更簡(jiǎn)潔易懂。

(文心一言答雞兔同籠)

(GPT-4答雞兔同籠)

(MathGPT答雞兔同籠)

同時(shí),MathGPT的優(yōu)勢(shì)在于,通過(guò)【分析】、【詳解】與【點(diǎn)睛】三個(gè)模塊拆解數(shù)學(xué)題進(jìn)行解析,分析題干并且總結(jié)知識(shí)點(diǎn),同時(shí)也給到了第二種解題方法“方程解答”。

第二題是以設(shè)X,列一元一次方程式解答的應(yīng)用題,題干為:“杰森往池塘水面上的扔一塊石頭。石頭在池塘表面反彈三下。如果第二次彈跳是第一次彈跳距離的一半,第三次彈跳是第二次彈跳距離的四分之一,彈跳之間的總距離是 65 英寸,那么巖石在第一次彈跳時(shí)移動(dòng)了多少英寸?”

結(jié)果表明,GPT-4的答案與解題過(guò)程正確,文心一言的解題過(guò)程與答案均錯(cuò)誤。MathGPT在設(shè)X與列出方程的步驟是正確的,但是在解方程的過(guò)程中出現(xiàn)錯(cuò)誤。

(文心一言答案)

(GPT-4答案)

(MathGPT答案)

第三題能夠以等量代換的邏輯解答,題干為:“1個(gè)蘋(píng)果=2個(gè)梨,3個(gè)梨=4個(gè)橙子,6個(gè)橙子=7個(gè)香蕉,56個(gè)香蕉等于多少個(gè)蘋(píng)果?”

結(jié)果顯示GPT-4過(guò)程與答案正確,文心一言解題邏輯正確但答案錯(cuò)誤。MathGPT能夠總結(jié)出題目知識(shí)點(diǎn)是等量代換,但解題思路與分析均錯(cuò)誤。

(文心一言答案)

(GPT-4答案)

(MathGPT答案)

田密認(rèn)為,大模型的本質(zhì),是一種更高效的、從數(shù)據(jù)中學(xué)習(xí)知識(shí)并加以應(yīng)用的方式。在AI能力的加持下,“學(xué)生自學(xué)+AI答疑”的新型學(xué)習(xí)方式成為可能。MathGPT作為垂直大模型,在答案之外能夠更詳細(xì)地總結(jié)出解題思路、思考方式以及對(duì)題目的考點(diǎn)、難點(diǎn)、關(guān)鍵點(diǎn)進(jìn)行提示。但若要真正成為“AI家教“,輔助學(xué)生完成自學(xué),在準(zhǔn)確率上仍有較大提升空間。

據(jù)田密介紹,隨著公測(cè)的順利進(jìn)行,MathGPT的解題能力將得到持續(xù)提升,基于MathGPT的產(chǎn)品級(jí)應(yīng)用也正在加速研發(fā)中,將于近期發(fā)布。

責(zé)任編輯:

關(guān)鍵詞:

  
相關(guān)新聞
每日推薦
  • 滾動(dòng)
  • 綜合
  • 房產(chǎn)