據(jù)英國(guó)《新科學(xué)家》周刊網(wǎng)站6月14日?qǐng)?bào)道,包括美國(guó)谷歌公司多名專家在內(nèi)的400多位人工智能(AI)研究者建議升級(jí)著名的圖靈測(cè)試,以提高為人工智能技術(shù)評(píng)分的能力。
報(bào)道稱,近年來(lái),人工智能語(yǔ)言模型表現(xiàn)出驚人的與人對(duì)話的能力,這要?dú)w功于實(shí)驗(yàn)規(guī)模不斷擴(kuò)大——我們有了更強(qiáng)的算力和龐大的訓(xùn)練數(shù)據(jù)集。谷歌公司的一名工程師近日對(duì)一個(gè)模型印象深刻,甚至宣稱這個(gè)模型已經(jīng)有了意識(shí)(雖然遭到很多人的質(zhì)疑)。有科研人員預(yù)計(jì)這些模型的規(guī)模仍將繼續(xù)擴(kuò)大,并在今后幾年里展現(xiàn)出新的能力。
為評(píng)估目前的技術(shù)水平并為迎接未來(lái)更強(qiáng)大的模型做好準(zhǔn)備,來(lái)自132家機(jī)構(gòu)的442名研究者花費(fèi)兩年時(shí)間,創(chuàng)造出一套取代圖靈測(cè)試的方法,用于評(píng)估人工智能模型的隱秘能力,且可在必要時(shí)擴(kuò)展評(píng)估范圍。這套方法名為“超越模仿游戲基準(zhǔn)”(BIG-bench),包含204項(xiàng)不同的任務(wù),覆蓋語(yǔ)言學(xué)、數(shù)學(xué)、棋類等一系列主題。根據(jù)設(shè)計(jì),這些任務(wù)將無(wú)法被當(dāng)前最先進(jìn)的模型完全解決。
科研人員在一篇介紹“超越模仿游戲基準(zhǔn)”的論文中指出,它將成為一項(xiàng)重要工具,可以啟發(fā)未來(lái)的研究,以及識(shí)別和預(yù)見(jiàn)新興人工智能的任何顛覆性新能力或潛在的有害影響。
人類專家完成了這204項(xiàng)任務(wù),為每項(xiàng)任務(wù)確定了平均分和最高基準(zhǔn)分??蒲腥藛T發(fā)現(xiàn),雖然算力的提高幫助人工智能模型取得越來(lái)越好的成績(jī),但人工智能在大多數(shù)任務(wù)中的表現(xiàn)仍然不如人類。
科研人員還發(fā)現(xiàn),擴(kuò)大人工智能模型的規(guī)模并沒(méi)有提高其在某些任務(wù)中的表現(xiàn),比如涉及長(zhǎng)文本的邏輯推理。這等于暗示說(shuō),對(duì)于一些智力領(lǐng)域而言,單單擴(kuò)大規(guī)模并不能解決問(wèn)題。事實(shí)上,這項(xiàng)研究還表明,規(guī)模甚至可能帶來(lái)問(wèn)題,比如在某些情況下,衡量社會(huì)偏好的一些測(cè)試會(huì)給較大的模型打出較低的分?jǐn)?shù)。
該研究團(tuán)隊(duì)的核心成員包含多位谷歌專家,但該公司沒(méi)有回應(yīng)記者的采訪請(qǐng)求。
英國(guó)薩里大學(xué)的阿德里安·希爾頓認(rèn)為,圖靈測(cè)試未必過(guò)時(shí),但對(duì)現(xiàn)代人工智能而言不夠有效,或者說(shuō)覆蓋面不夠廣。圖靈測(cè)試最初還被用來(lái)評(píng)估智力,盡管其是否能夠評(píng)估智力是值得商榷的。希爾頓懷疑此次公布的新基準(zhǔn)恐怕也無(wú)法衡量真正的智力。
他說(shuō):“我認(rèn)為這是一種有效的測(cè)試,但我不會(huì)據(jù)此認(rèn)為,說(shuō)一臺(tái)機(jī)器很聰明與說(shuō)它有意識(shí)是一回事。我相信,設(shè)置一組基準(zhǔn)是比較一種機(jī)器學(xué)習(xí)算法與另一種算法的一個(gè)辦法,也是比較一種人工智能與另一種人工智能的一個(gè)辦法。但我并不認(rèn)為這一定能解答關(guān)于智力的問(wèn)題。有了機(jī)器學(xué)習(xí)技術(shù),機(jī)器就能譜寫(xiě)樂(lè)曲,甚至回答問(wèn)題、寫(xiě)散文,且是以一種比較有說(shuō)服力、比較接近人類的方式做這些事情。但這真的是智力嗎?我認(rèn)為并非如此?!?/p>
來(lái)源:參考消息網(wǎng)