原標題:A.I. Can Write Poetry, but It Struggles With Math
作者:Steve Lohr 來源:紐約時報 編譯:阿宅 圖源:Unsplash
人工智能聊天機器人就像學生一樣,努力勤奮,孜孜以求,口齒伶俐。但奇怪的是,它們卻經(jīng)常在數(shù)學上遇到困難。
類似于ChatGPT這樣的聊天機器人可以寫詩、總結(jié)書籍摘要、回答問題,它們通常具有像人類一樣的流暢性。雖然這些系統(tǒng)可以根據(jù)所學知識進行數(shù)學運算,但結(jié)果可能會有所不同,甚至可能是錯的。這些聊天機器人經(jīng)過微調(diào),可以用于確定概率,而非進行基于規(guī)則的運算??赡苄圆坏扔跍蚀_性,而且語言比數(shù)學更靈活,標準更寬松。
美國西北大學計算機科學教授兼人工智能研究員克里斯蒂安·哈蒙德(Kristian Hammond)說:“人工智能聊天機器人在數(shù)學方面吃力,是因為它們從來不是為數(shù)學而設計的。”
看起來,世界上最聰明的計算機科學家創(chuàng)造的人工智能更像是文科專業(yè)的學生,而不是數(shù)字奇才。
乍一看,這與計算機的歷史發(fā)展截然不同。自20世紀40年代早期計算機誕生以來,計算機一直在不知疲倦、快速、準確地計算。長期以來,計算機真正擅長的是處理棘手的數(shù)字,其表現(xiàn)遠遠優(yōu)于人類。計算機遵循規(guī)則,并在結(jié)構(gòu)化的數(shù)據(jù)庫中檢索信息。它們既強大又脆弱,因此,過去在人工智能方面的努力遇到了障礙。
然而,十多年前,這一障礙得以突破。作為底層技術(shù)的神經(jīng)網(wǎng)絡,可以松散地模擬了人腦中真實神經(jīng)網(wǎng)絡的復雜鏈接。這類人工智能不是按照嚴格的規(guī)則編程的,而是通過分析大量數(shù)據(jù)來學習。這類人工智能像人類一樣,根據(jù)所吸收的所有信息生成語言,預測接下來最有可能出現(xiàn)的單詞或短語。
“這項技術(shù)實現(xiàn)了很多了不起的事情,但并不意味著它是無所不能的?!惫傻虏┦空f。
有時,人工智能聊天機器人會遇到簡單的算術(shù)和數(shù)學單詞問題,需要多個步驟才能找到解決方案,一些技術(shù)評論家最近注意到了這一點。雖然人工智能的熟練程度正在提高,但仍然有缺陷。
在最近召開的一次研討會上,可汗學院的首席學習官克里斯汀·迪瑟博(Kristen DiCerbo)介紹了數(shù)學準確性這一主題?!罢缒銈冊S多人所了解的,這確實是一個問題。”迪瑟博說。
幾個月前,可汗學院對其人工智能助手Khanmigo進行了大的調(diào)整,將許多數(shù)值問題發(fā)送到計算器程序,而不是要求人工智能解決數(shù)學問題。學生在等待計算器程序完成時,會在屏幕上看到“做數(shù)學”的字樣,也會看到Khanmigo的圖標在搖頭。迪瑟博說:“我們實際上是在使用專門的數(shù)學工具。”
這一年多來,ChatGPT在解決一些數(shù)學問題時用了類似的解決方法。對于大數(shù)除法和乘法等任務,ChatGPT會向計算器程序?qū)で髱椭?/p>
OpenAI在一份聲明中表示,數(shù)學是一個“需要持續(xù)研究的重要領(lǐng)域”。OpenAI表示,在包含數(shù)千個需要視覺感知和數(shù)學推理的問題的公共數(shù)據(jù)庫上,其新版GPT達到了近64%的準確率,高于比上一版本的58%。
當人工智能聊天機器人消化了大量相關(guān)的訓練數(shù)據(jù),包括教科書、練習和標準化測試時,它們的往往表現(xiàn)出色。其結(jié)果是,聊天機器人之前已經(jīng)看到并分析了非常相似的問題。OpenAI表示,ChatGPT技術(shù)的最新版本在高中生的SAT數(shù)學考試中得分為第89百分位。
人工智能聊天機器人在數(shù)學方面的不穩(wěn)定表現(xiàn)為人工智能界關(guān)于該領(lǐng)域最佳前進方向的激烈辯論增添了亮點。大體上形成了兩個陣營。
一方面,有人認為,為人工智能聊天機器人提供動力的高級神經(jīng)網(wǎng)絡,即大語言模型,是通向穩(wěn)步發(fā)展并最終實現(xiàn)通用人工智能(AGI)的唯一途徑。這是硅谷地區(qū)的主流觀點。
但也人質(zhì)疑,向大模型添加更多數(shù)據(jù)和計算能力是否足夠。其中的代表人物是Meta首席人工智能科學家Yann LeCun。
LeCun博士說,大模型缺乏對邏輯的掌握,也缺乏常識推理。他堅稱,我們需要的是一種更廣泛的方法,他稱之為“世界模型”(world modeling),即能夠像人類一樣學習世界如何運作的系統(tǒng)。這可能需要十年左右的時間才能實現(xiàn)。
與此同時,Meta正在基于其大模型LLaMA,將人工智能驅(qū)動的智能助理軟件整合到其社交媒體服務中,包括Facebook、Instagram和WhatsApp。目前的模型可能有缺陷,但仍然做了很多工作。
大衛(wèi)·費魯奇(David Ferrucci)領(lǐng)導的團隊打造了IBM著名的超級電腦“沃森”,這款電腦在2011年擊敗了《危險邊緣》(Jeopardy)節(jié)目歷史上最成功的兩位選手。與大多數(shù)計算機科學家一樣,費魯奇認為最新的人工智能技術(shù)無疑令人印象深刻,但主要在于語言技能方面,而非在于準確性。他成立的初創(chuàng)公司Elemental Cognition開發(fā)軟件,以改善金融、旅游和藥物研發(fā)等領(lǐng)域的商業(yè)決策。Elemental Cognition將大語言模型作為一個組成部分,但也使用更多基于規(guī)則的軟件。
費魯奇博士說,這種結(jié)構(gòu)化軟件是目前運行世界上大部分基礎系統(tǒng)(如銀行、供應鏈和空中交通管制)的計算基礎設施。他說:“許多重要的事情需要非常高的精確度?!?/p>
紐約高中數(shù)學老師柯克·施耐德(Kirk Schneider)表示,他認為人工智能聊天機器人對教育產(chǎn)生影響是不可避免的。他說,雖然學校管理人員可以禁用,但學生們?nèi)詴褂谩?/p>
但施耐德先生有些不安。他說:“通常來說,這些人工智能聊天機器人表現(xiàn)較好,但數(shù)學方面還是不夠好,數(shù)學必須準確?!?/p>
然而,這些偶爾的失誤實際上是一個教學機會。施耐德經(jīng)常將他的班級分成小組,聊天機器人的答案是學生討論的焦點。將你的答案與機器人的進行對比,誰的對?你們是如何得出答案的?
“這教會學生帶著批判性的眼光看待事物,并提高批判性思維。”他說,“這類似于問另一個人,這個人可能是正確的,也可能是錯誤的。”
對于他的學生來說,這似乎是人生一課。在學生以后甚至已經(jīng)不記得勾股定理后,這堂課仍值得一直銘記:不要相信人工智能程序告訴你的一切。不要過于相信它。
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。