每日速訊:AI做題家:高數(shù)考試正確率81% 競(jìng)賽題成績(jī)超過計(jì)算機(jī)博士
高數(shù)考不好,不知道是多少人的噩夢(mèng)。如果說你高數(shù)考得還不如AI好,是不是就更難以接受了?沒錯(cuò),來自O(shè)penAI的Codex已經(jīng)在MIT的7門高數(shù)課程題目中正確率達(dá)到81.1%,妥妥的MIT本科生水平。
(資料圖片僅供參考)
訪問:
阿里云“無影云電腦” 支持企業(yè)快速實(shí)現(xiàn)居家辦公
課程范圍從初級(jí)微積分到微分方程、概率論、線性代數(shù)都有,題目形式除了計(jì)算、甚至還有畫圖。
這件事最近還登上了微博熱搜。
“僅”得81分,對(duì)AI的期待也太高了吧
現(xiàn)在,Google那邊又傳來了最新大消息:
不止數(shù)學(xué),我們的AI甚至在整個(gè)理工科上,都已經(jīng)拿到最高分啦!
看來在培養(yǎng)“AI做題家”這件事上,科技巨頭們已經(jīng)卷出了新高度。
Google這個(gè)最新AI做題家,參加了四門考試。
數(shù)學(xué)競(jìng)賽考試MATH,以往只有三屆IMO金牌得主才拿過90分,普通的計(jì)算機(jī)博士甚至只能拿到40分左右。
至于別的AI做題家們,以前最好成績(jī)只有6.9分……
但這一次,Google新AI卻刷到了50分,比計(jì)算機(jī)博士還高。
綜合考試MMLU-STEM,內(nèi)含數(shù)理化生、電子工程和計(jì)算機(jī)科學(xué),題目難度達(dá)到高中甚至大學(xué)水平。
這一次,GoogleAI“滿血版”,也都拿到了做題家中的最高分,直接將分?jǐn)?shù)拉高了20分左右。
小學(xué)數(shù)學(xué)題GSM8k,直接將成績(jī)拉升到78分,相比之下GPT-3還沒及格(僅55分)。
就連MIT本科和研究生學(xué)的固體化學(xué)、天文學(xué)、微分方程和狹義相對(duì)論等課程,Google新AI也能在200多道題中,答出將近三分之一。
最重要的是,與OpenAI憑借“編程技巧”取得數(shù)學(xué)高分的方法不同,GoogleAI這一次,走的可是“像人一樣思考”的路子——
它像一個(gè)文科生一樣只背書不做題,卻掌握了更好的理工科解題技巧。
值得一提的是,論文一作Lewkowycz還分享了一個(gè)論文中沒寫到的亮點(diǎn):
我們的模型參加了今年的波蘭數(shù)學(xué)高考,成績(jī)比全國(guó)平均分還要高。
看到這里,有的家長(zhǎng)已經(jīng)坐不住了。
如果告訴我女兒這件事,我怕她用AI做作業(yè)。但如果不告訴她,就沒有讓她對(duì)未來做好準(zhǔn)備!
在業(yè)內(nèi)人士看來,只靠語言模型,不對(duì)算數(shù)、邏輯和代數(shù)做硬編碼達(dá)到這種水平,是這項(xiàng)研究最驚艷的地方。
那么,這是怎么做到的?
AI狂讀arXiv上200萬篇論文
新模型Minerva,基于Pathway架構(gòu)下的通用語言模型PaLM改造而來。
分別在80億、600億和5400億參數(shù)PaLM模型的基礎(chǔ)上做進(jìn)一步訓(xùn)練。
Minerva做題與Codex的思路完全不同。
Codex的方法是把每道數(shù)學(xué)題改寫成編程題,再靠寫代碼來解決。
而Minerva則是狂讀論文,硬生生按理解自然語言的方式去理解數(shù)學(xué)符號(hào)。
在PaLM的基礎(chǔ)上繼續(xù)訓(xùn)練,新增的數(shù)據(jù)集有三部分:
主要有arXiv上收集的200萬篇學(xué)術(shù)論文,60GB帶LaTeX公式的網(wǎng)頁,以及一小部分在PaLM訓(xùn)練階段就用到過的文本。
通常的NLP數(shù)據(jù)清洗過程會(huì)把符號(hào)都刪掉只保留純文字,導(dǎo)致公式不完整,比如愛因斯坦著名的質(zhì)能方程只剩下了Emc2。
但Google這次把公式都保留,和純文本一樣走一遍Transformer的訓(xùn)練程序,讓AI像理解語言一樣去理解符號(hào)。
與之前的語言模型相比,這是Minerva在數(shù)理問題上表現(xiàn)更好的原因之一。
但與專門做數(shù)學(xué)題的AI相比,Minerva的訓(xùn)練中沒有顯式的底層數(shù)學(xué)結(jié)構(gòu),這帶來一個(gè)缺點(diǎn)和一個(gè)優(yōu)點(diǎn)。
缺點(diǎn),是可能出現(xiàn)AI用錯(cuò)誤的步驟得到正確答案的情況。
優(yōu)點(diǎn),是可以適應(yīng)不同學(xué)科,即使有些問題無法用正規(guī)的數(shù)學(xué)語言表達(dá)出來,也可以結(jié)合自然語言理解能力解出來。
到了AI的推理階段,Minerva還結(jié)合了多個(gè)最近Google開發(fā)的新技術(shù)。
先是Chain of Thought思維鏈路提示,今年一月由Google大腦團(tuán)隊(duì)提出。
具體來說就是在提問的同時(shí)給一個(gè)分步驟回答的示例來引導(dǎo)。AI在做題時(shí)就可以采用類似的思考過程,正確回答本來會(huì)答錯(cuò)的題目。
再有是Google和MIT合作開發(fā)的Scrathpad草稿紙方法,讓AI把分步計(jì)算的中間結(jié)果臨時(shí)存儲(chǔ)起來。
最后還有Majority Voting多數(shù)表決方法,也是今年3月才發(fā)表的。
讓AI多次回答同一個(gè)題目,選擇答案中出現(xiàn)頻率最高的。
所有這些技巧全用上以后,5400億參數(shù)的Minerva在各種測(cè)試集中達(dá)到SOTA。
甚至80億參數(shù)版的Minerva,在競(jìng)賽級(jí)數(shù)學(xué)題和MIT公開課問題中,也能達(dá)到GPT-3最新更新的davinci-002版本水平。
說了這么多,Minerva具體都能做出哪些題目?
對(duì)此Google也開放出了樣例集,一起來看一下。
數(shù)理化生全能,連機(jī)器學(xué)習(xí)都會(huì)
數(shù)學(xué)上,Minerva可以像人類一樣按步驟計(jì)算數(shù)值,而不是直接暴力求解。
對(duì)于應(yīng)用題,可以自己列出方程式并做簡(jiǎn)化。
甚至還可以推導(dǎo)證明。
物理上,Minerva可以求中性氮基態(tài)(Z = 7)電子的總自旋量子數(shù)這樣的大學(xué)水平題目。
生物和化學(xué)上,Minerva憑借語言理解能力也可以做各種選擇題。
以下哪種點(diǎn)突變形式對(duì)DNA序列形成的蛋白質(zhì)沒有負(fù)面影響?
以下哪種是放射性元素?
以及天文學(xué):為什么地球擁有很強(qiáng)的磁場(chǎng)?
在機(jī)器學(xué)習(xí)方面,它通過解釋“分布外樣本檢測(cè)”的具體含義,從而正確了給出這個(gè)名詞的另一種說法。
……
不過,Minerva有時(shí)也會(huì)犯一些低級(jí)錯(cuò)誤,比如把等式兩邊的√給消了。
除此之外,Minerva會(huì)出現(xiàn)的推理過程錯(cuò)誤但結(jié)果對(duì)的“假陽性”情況,比如下面這種,有8%的可能性。
經(jīng)過分析之后,團(tuán)隊(duì)發(fā)現(xiàn)主要的錯(cuò)誤形式來自計(jì)算錯(cuò)誤和推理錯(cuò)誤,只有小部分來自題意理解錯(cuò)誤和在步驟中使用了錯(cuò)誤的事實(shí)等其他情況。
其中計(jì)算錯(cuò)誤可以輕易通過訪問外部計(jì)算器或Python解釋器解決,但其他種類的錯(cuò)誤因?yàn)樯窠?jīng)網(wǎng)絡(luò)規(guī)模太大就不太好調(diào)整了。
總的來看,Minerva的表現(xiàn)讓很多人感到驚艷,紛紛在評(píng)論區(qū)求API(可惜Google目前并沒有公開計(jì)劃)。
有的網(wǎng)友想到,加上前幾日讓GPT-3解題正確率暴漲61%的“哄一哄”大法,它的準(zhǔn)確率或許還可以再提高?
不過作者的回應(yīng)是,哄一哄方法屬于零樣本學(xué)習(xí),再?gòu)?qiáng)恐怕也比不上帶4個(gè)例子的少樣本學(xué)習(xí)。
還有網(wǎng)友提出,既然它可以做題,那么能不能反過來出題?
事實(shí)上用AI給大學(xué)生出題這件事,MIT已經(jīng)聯(lián)合OpenAI在做了。
他們把人類出的題和AI出的題混在一起,找學(xué)生來做問卷調(diào)查,大家也很難分清一道題是不是AI出的。
總之現(xiàn)在的情況,除了搞AI的在忙著讀這篇論文以外。
學(xué)生們盼著有一天能用AI做作業(yè)。
老師們也盼著有一天能用AI出卷子。
關(guān)鍵詞: 人工智能 AI做題家高數(shù)考試正確率81% 競(jìng)賽題成績(jī)
2022-07-06 06:54:22
2022-07-06 06:53:22
2022-07-06 06:50:58
2022-07-06 06:39:13
2022-07-06 06:38:31
2022-07-06 06:37:28
2022-07-06 06:36:06
2022-07-06 06:35:02
2022-07-06 06:30:31
2022-07-06 05:54:47
2022-07-06 05:53:50
2022-07-06 05:50:20
2022-07-06 05:48:41
2022-07-06 05:48:19
2022-07-06 05:45:16
2022-07-06 05:44:41
2022-07-06 05:43:05
2022-07-06 05:41:41
2022-07-06 05:41:36
2022-07-06 05:40:18
2022-07-06 05:39:48
2022-07-06 05:39:44
2022-07-06 05:37:14
2022-07-06 05:33:12
2022-07-06 05:32:07
2022-07-06 05:31:06
2022-07-05 16:25:44
2022-07-05 15:04:47
2022-07-05 09:50:30
2022-07-05 09:49:23
2022-07-05 09:48:39
2022-07-05 09:43:37
2022-07-05 09:42:27
2022-07-05 09:37:53
2022-07-05 09:37:30
2022-07-05 09:37:11
2022-07-05 09:36:28
2022-07-05 09:32:39
2022-07-05 09:31:02
2022-07-05 09:30:18
2022-07-05 08:45:07
2022-07-05 08:42:52
2022-07-05 08:32:20
2022-07-05 08:24:23
2022-07-05 08:16:55
2022-07-05 07:53:15
2022-07-05 07:52:51
2022-07-05 07:49:33
2022-07-05 07:44:17
2022-07-05 07:32:12
2022-07-05 06:50:46
2022-07-05 06:47:51
2022-07-05 06:44:45
2022-07-05 06:41:48
2022-07-05 06:41:19
2022-07-05 05:56:00
2022-07-05 05:54:53
2022-07-05 05:53:48
2022-07-05 05:52:45
2022-07-05 05:51:02
2022-07-05 05:49:35
2022-07-05 05:49:24
2022-07-05 05:48:46
2022-07-05 05:48:37
2022-07-05 05:48:35
2022-07-05 05:48:26
2022-07-05 05:48:15
2022-07-05 05:47:40
2022-07-05 05:46:58
2022-07-05 05:46:47
2022-07-05 05:43:36
2022-07-05 05:40:05
2022-07-05 05:37:20
2022-07-05 05:34:42
2022-07-05 05:34:28
2022-07-05 05:33:43
2022-07-05 05:32:41
2022-07-04 19:46:32
2022-07-04 18:01:28
2022-07-04 17:24:53
2022-07-04 15:31:15
2022-07-04 12:31:27
2022-07-04 10:36:03
2022-07-04 09:53:43
2022-07-04 09:53:30
2022-07-04 09:38:00
2022-07-04 09:34:22
2022-07-04 08:36:09
2022-07-04 08:31:28 熱門文章
- 1市場(chǎng)分歧加大 牧原股份、多氟多等兩股遭機(jī)構(gòu)減持
- 2通威股份市值逼近3000億 年內(nèi)連續(xù)簽訂兩份超千萬合同
- 3永茂泰炒期貨巨虧股價(jià)大跌 年內(nèi)6月有色金屬價(jià)格高位跳水
- 4首批8家碳中和ETF產(chǎn)品開售 首日認(rèn)購(gòu)金額最高達(dá)12億元
- 5石英轉(zhuǎn)債一年半股價(jià)累計(jì)漲幅超5倍突破千元 年內(nèi)漲幅達(dá)136.6%
- 6中信建投IPO收入居首 其中中信證券保薦項(xiàng)目達(dá)23家
- 7港股IPO單周16家新股招股 21家新股遞交上市申請(qǐng)
- 8大盤縮量下探 機(jī)構(gòu)大舉加倉(cāng)鋮昌科技買入金額達(dá)21801萬元
- 9大盤回調(diào)高開低走 市場(chǎng)或步入調(diào)整期
- 10多家上市公司股東捐獻(xiàn)股份 其中美的投資累計(jì)捐贈(zèng)股份約10億元
熱點(diǎn)專題
-
每日速訊:AI做題家:高數(shù)考...高數(shù)考不好,不知道是多少人的噩夢(mèng)。如果說你高數(shù)考得還不如AI好,是不是就更難以接受了?沒錯(cuò),來自O(shè)pe... -
焦點(diǎn)!Google用人工智能凸顯...如今,一些看起來非常像人類的句子實(shí)際上是由人工智能系統(tǒng)生成的,這些系統(tǒng)已經(jīng)在大量的人類文本中進(jìn)行... -
天天觀察:國(guó)內(nèi)那些押注加密...去年7月,三言曾寫過那些高調(diào)Allin比特幣的公司,那么,如今一年過去,這些公司怎么樣了呢?7月3日,美... -
天天觀點(diǎn):游說團(tuán)體警告:歐...鋰和電池生產(chǎn)商警告歐盟,將鋰列為有害物質(zhì)的提案可能會(huì)嚴(yán)重?fù)p害歐洲蓬勃發(fā)展的電動(dòng)汽車行業(yè)。鋰是電動(dòng)... -
快訊:2022年“菲爾茲獎(jiǎng)”授...7月5日,芬蘭赫爾辛基阿爾托大學(xué)公布4位年輕數(shù)學(xué)家獲得2022年“菲爾茲獎(jiǎng)”。他們分別是:美國(guó)普林斯頓高... -
世界視點(diǎn)!iPhone14或9月13日...每年在6月份之后,供應(yīng)鏈上對(duì)于新iPhone的傳聞都會(huì)異常的準(zhǔn)確,尤其是對(duì)于機(jī)型的規(guī)劃、ID設(shè)計(jì)等方面,其... -
環(huán)球焦點(diǎn)!鐘薛高31度室溫下...近日,鐘薛高31度室溫下放1小時(shí)不化引熱議,而在7月5日,一段網(wǎng)友用打火機(jī)點(diǎn)燃鐘薛高雪糕,疑似燒不化的... -
全球今亮點(diǎn)!哈哈哈,聽說日...“日本人吃不起水果。”小時(shí)候,大家大概都聽說過這樣的傳言。早年間去過日本的人都說,日本哪兒都挺好... -
每日熱點(diǎn):“未維修”卻要價(jià)...7月5日,格力電器發(fā)布聲明稱,“近日,接到用戶反映有不法分子冒充格力電器售后服務(wù)團(tuán)隊(duì),發(fā)布虛假售后... -
每日速讀!荷蘭警方為馬斯特里...盡管馬斯特里赫特大學(xué)在2019年遭受了勒索軟件攻擊,但隨著部分BTC贖金的退還,身為受害者的該校竟然也受...
關(guān)于我們 廣告服務(wù) 手機(jī)版 投訴文章:39 60 2 914 2@qq.com
Copyright (C) 1999-2020 www.baiduer.com.cn 愛好者日?qǐng)?bào)網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:39 60 2 914 2@qq.com
相關(guān)新聞