3月6日消息,當(dāng)?shù)貢r(shí)間3月5日,美國計(jì)算機(jī)學(xué)會(huì)宣布,安德魯·巴托和理查德·薩頓獲得 2024 年 ACM A.M. 圖靈獎(jiǎng),以表彰他們在強(qiáng)化學(xué)習(xí)方向的研究。
據(jù)了解,自 20 世紀(jì) 80 年代起,巴托和薩頓在一系列論文中提出了強(qiáng)化學(xué)習(xí)的核心思想、構(gòu)建了數(shù)學(xué)基礎(chǔ)并開發(fā)了重要算法,使其成為創(chuàng)建智能系統(tǒng)的關(guān)鍵方法之一。
獲獎(jiǎng)后,“強(qiáng)化學(xué)習(xí)之父”薩頓在采訪中探討了AI的發(fā)展進(jìn)程,同時(shí)給予了青年研究員們一些個(gè)人建議。
當(dāng)被主持人問道AI領(lǐng)域智能愿景,在這么多年即將要實(shí)現(xiàn),是不是特別激動(dòng)時(shí)。
薩頓坦然表示:沒錯(cuò),但也不盡然,我并不認(rèn)同“一切都能迅速地大功告成”的觀點(diǎn)。
他繼續(xù)補(bǔ)充道:AI確實(shí)已經(jīng)取得巨大進(jìn)展,但我不認(rèn)可那種急于求成的心態(tài)。
“我認(rèn)為這是一場馬拉松,而非短跑沖刺,前面的路還很長,AI偉大、具影響力的那些方面尚未到來。”
隨后,主持人又問到了其對于研究者,尤其是年輕的研究者的建議。
薩頓認(rèn)為:“跑馬拉松”挺不容易的,保持動(dòng)力也不簡單,我的建議是,要志存高遠(yuǎn),但別驕傲自滿!”
說到這一點(diǎn),他與主持人相視哈哈大笑。
隨后,他繼續(xù)補(bǔ)充道:我始終敬佩年輕人不盲從權(quán)威的態(tài)度,因?yàn)闆]有人能獨(dú)斷AI的發(fā)展方向,在科學(xué)領(lǐng)域不存在所謂的權(quán)威,這就賦予了任何人的能力和權(quán)力。
同時(shí),薩頓謙遜強(qiáng)調(diào):這也許令人有些失落,因?yàn)槟慊蛟S曾視我為權(quán)威,而我本可利用這一名號(hào),但我必須坦誠,我不能。
眾所周知,ACM A.M. 圖靈獎(jiǎng)素有 “計(jì)算機(jī)界諾貝爾獎(jiǎng)” 之稱,以英國數(shù)學(xué)家艾倫·圖靈(Alan Turing)命名,他奠定了計(jì)算的數(shù)學(xué)基礎(chǔ),通常被認(rèn)為是理論計(jì)算機(jī)科學(xué)和人工智能的創(chuàng)始人。
另外,該獎(jiǎng)從1966年開始頒發(fā),2014年起獎(jiǎng)金為 100 萬美元,由谷歌公司提供。
在這里,特別強(qiáng)調(diào)一下什么是“強(qiáng)化學(xué)習(xí)”?
人工智能(AI)領(lǐng)域關(guān)注構(gòu)建智能體,即能感知與行動(dòng)的實(shí)際存在,而更智能的智能體現(xiàn)在其能選擇更優(yōu)的行動(dòng)方案。因此,“某些行動(dòng)優(yōu)于其他”的概念是 AI 的核心。
獎(jiǎng)勵(lì)(reward,源于心理學(xué)與神經(jīng)科學(xué)的術(shù)語)表示提供給智能體與其實(shí)際行為質(zhì)量相關(guān)的信號(hào)。
強(qiáng)化學(xué)習(xí)(RL) 則是通過獎(jiǎng)勵(lì)信號(hào)學(xué)習(xí)更成功行為的過程。
20 世紀(jì) 80 年代初,受心理學(xué)啟發(fā),巴托與博士生薩頓開始將強(qiáng)化學(xué)習(xí)定義為通用問題框架。
在此后的數(shù)十年間,巴托和薩頓與其他研究人員共同開發(fā)了強(qiáng)化學(xué)習(xí)的許多基本算法。
比如,他們二人編寫的經(jīng)典教材《強(qiáng)化學(xué)習(xí):導(dǎo)論》(Reinforcement Learning: An Introduction,1998)被引用超 7.5 萬次,至今仍是該領(lǐng)域標(biāo)準(zhǔn)參考資料。
在這本書的影響下,成千上萬的研究者能夠理解并參與到這個(gè)新興領(lǐng)域,并繼續(xù)激發(fā)今天計(jì)算機(jī)科學(xué)領(lǐng)域的大量重要?jiǎng)?chuàng)新。
盡管巴托和薩頓的算法誕生于數(shù)十年前,但其與深度學(xué)習(xí)算法的結(jié)合(由2018年圖靈獎(jiǎng)獲得者Bengio、Hinton和LeCun開創(chuàng)),從而導(dǎo)致了深度強(qiáng)化學(xué)習(xí)的出現(xiàn),并在過去 15 年取得多項(xiàng)重大突破。
突出的例子是 AlphaGo 程序在 2016 年和 2017 年戰(zhàn)勝了優(yōu)秀的人類圍棋選手。近一項(xiàng)重大成就則是聊天機(jī)器人 ChatGPT 的開發(fā)。
本文鏈接:http://www.zh1234.com/news16192.html新晉圖靈獎(jiǎng)得主薩頓:AI發(fā)展是場馬拉松 具影響力的方面尚未到來