足球,是一項(xiàng)全球流行的球類運(yùn)動(dòng),講究身體對(duì)抗與團(tuán)隊(duì)配合。
在現(xiàn)實(shí)生活中,不管踢不踢,踢得好還是踢得不好,每當(dāng)看(聽)到“足球”這個(gè)詞,人們都會(huì)似懂非懂地聊上幾句。
確實(shí),足球這一運(yùn)動(dòng),有太多的新聞,并不稀奇。
但是,如果一個(gè)人工智能(AI)學(xué)會(huì)了踢足球,而且踢得還不錯(cuò),那算不算一件比較稀奇的事情呢?畢竟,當(dāng)前的AI有時(shí)連“500年前的美國總統(tǒng)是不是林肯”這樣的問題都回答不上來。
9月1日,來自英國人工智能公司 DeepMind 的研究團(tuán)隊(duì)就首次介紹了這樣一個(gè)可以完成帶球突破、身體對(duì)抗等多種動(dòng)作,然后精準(zhǔn)射門的“AI 足球運(yùn)動(dòng)員”。
圖|“AI玩家”正在進(jìn)行2V2對(duì)抗比賽(動(dòng)圖制作素材來源:Science Robotics)
盡管偶爾不講規(guī)則,比如比賽中沒有角球、點(diǎn)球和任意球等定位球(set piece),但研究團(tuán)隊(duì)認(rèn)為,這一研究推動(dòng)了人工系統(tǒng)向人類水平運(yùn)動(dòng)智能向前邁進(jìn)。
相關(guān)研究論文以“From motor control to team play in simulated humanoid football”為題,已發(fā)表在科學(xué)期刊 Science Robotics 上。
AI是怎么學(xué)會(huì)踢足球的?
眾所周知,標(biāo)準(zhǔn)的足球比賽由兩支隊(duì)伍各派11名隊(duì)員參與,包括10名球員及1名守門員,在球場(chǎng)上互相對(duì)抗和進(jìn)攻。
除了守門員可以在己方禁區(qū)內(nèi)利用手部觸球外,其他球員只能運(yùn)用手部以外的身體部位碰觸球(開界外球例外),比賽的最終目的則是盡可能地將足球踢入對(duì)方的球門內(nèi)。
因此,無論是在現(xiàn)實(shí)比賽中,還是在網(wǎng)絡(luò)游戲上,足球都是一個(gè)既考驗(yàn)個(gè)人技巧,又需要團(tuán)隊(duì)成員默契協(xié)作的運(yùn)動(dòng),完成一次出色的傳球或一次精準(zhǔn)的射門并不容易,“需要解決人類和動(dòng)物們都會(huì)面臨的諸多問題”。
據(jù)論文描述,盡管 DeepMind 團(tuán)隊(duì)在此次研究中簡(jiǎn)化了游戲規(guī)則,并將兩隊(duì)球員人數(shù)限定在了2-3人,但結(jié)果顯示,AI玩家可以在事先不了解足球規(guī)則的情況下學(xué)會(huì)踢球、運(yùn)球和射門等技能,并在模擬游戲中完成2V2和3V3的足球比賽。
“TA 們?cè)谝粋€(gè)動(dòng)作技能和高水平目標(biāo)導(dǎo)向行為緊密結(jié)合的環(huán)境中實(shí)現(xiàn)了綜合控制。” 論文共同一作、共同通訊作者 Siqi Liu 及其團(tuán)隊(duì)寫道。
圖|“AI 玩家”完成運(yùn)球、搶斷和傳球等一系列動(dòng)作(動(dòng)圖制作素材來源:Science Robotics)
如上圖,在一場(chǎng)2V2的比賽中,紅隊(duì)球員先后完成了跑動(dòng)、逼搶和傳球等一系列動(dòng)作,整個(gè)動(dòng)作十分自然流暢,且充滿壓迫性。
那么,“足球小白”是如何變身“優(yōu)秀足球運(yùn)動(dòng)員”的?
原因在于研究團(tuán)隊(duì)提出的3步機(jī)器學(xué)習(xí)框架。
首先,AI玩家需要通過觀看人類運(yùn)動(dòng)視頻學(xué)會(huì)行走,因?yàn)樽铋_始的 AI玩家并不知道要在足球場(chǎng)上做什么。
圖|訓(xùn)練前(動(dòng)圖制作素材來源:Science Robotics)
然后,在知道自己做什么之后,AI玩家可以借助強(qiáng)化學(xué)習(xí)算法學(xué)會(huì)踢足球。
圖|訓(xùn)練3天后(動(dòng)圖制作素材來源:Science Robotics)
最后,AI玩家更進(jìn)一步,基于另外一種強(qiáng)化學(xué)習(xí)算法學(xué)會(huì)如何進(jìn)行團(tuán)隊(duì)協(xié)作和更高難度的運(yùn)動(dòng)控制。
圖|訓(xùn)練50天后(動(dòng)圖制作素材來源:Science Robotics)
可見,當(dāng)訓(xùn)練中的AI玩家不斷接受環(huán)境獎(jiǎng)勵(lì),并作出正確反饋,其踢足球水平就會(huì)得到增加。
由“足球小白”變身“優(yōu)秀足球運(yùn)動(dòng)員”,AI又秀了一把。
但是,依然不夠
在描述認(rèn)知科學(xué)和 AI基礎(chǔ)的經(jīng)典言論中,圖靈獎(jiǎng)得主 Allen Newell 認(rèn)為,從毫秒級(jí)的肌肉抽搐,到數(shù)百毫秒級(jí)的認(rèn)知決策,再到長(zhǎng)期的目標(biāo)導(dǎo)向行為,人類行為跨越了多個(gè)組織層次。
更高級(jí)別的行為往往與外界環(huán)境和其他主體更復(fù)雜的互動(dòng)相關(guān)聯(lián),而如何在多空間和時(shí)間尺度上表現(xiàn)出智能行為,是物理實(shí)體人工智能長(zhǎng)期面臨的挑戰(zhàn)之一。
DeepMind 團(tuán)隊(duì)的這項(xiàng)研究,通過強(qiáng)化學(xué)習(xí)算法等AI技術(shù),為AI玩家賦予了靈活的運(yùn)動(dòng)控制和多智能體協(xié)作能力,是一個(gè)有關(guān)如何在多智能體環(huán)境下學(xué)習(xí)多尺度綜合決策的優(yōu)秀案例。
圖|對(duì)抗、推搡(動(dòng)圖制作素材來源:Science Robotics)
當(dāng)然,這項(xiàng)研究也具有一定的局限性。
例如,由于參與比賽的AI玩家數(shù)量相對(duì)較少,相比于現(xiàn)實(shí)世界還是缺少一定的復(fù)雜度,并不能說明AI可以玩更復(fù)雜的足球比賽。如果在未來的工作中增加AI玩家數(shù)量,可能就會(huì)產(chǎn)生更有趣的團(tuán)隊(duì)策略。
另外,由于時(shí)間較短,節(jié)奏較快,AI玩家也沒有被賦予調(diào)整節(jié)奏、保持精力、決定陣型或替換更偏向防守或進(jìn)攻的球員的能力。
此外,研究團(tuán)隊(duì)也表示,他們的方法不適合直接在機(jī)器人硬件上學(xué)習(xí),研究成果也不會(huì)快速從模擬世界轉(zhuǎn)移應(yīng)用到現(xiàn)實(shí)世界。
但是,研究成果確實(shí)證明了基于學(xué)習(xí)的方法在生成復(fù)雜運(yùn)動(dòng)策略方面的潛力,也解決了模擬訓(xùn)練中出現(xiàn)的模擬到真實(shí)遷移的主要挑戰(zhàn)之一。
在論文的最后,研究團(tuán)隊(duì)這樣寫道,“如何在敏捷機(jī)器人硬件上實(shí)現(xiàn)類似復(fù)雜程度的多尺度運(yùn)動(dòng)智能,將是令人興奮的研究方向之一”。
未來,AI的強(qiáng)大將超乎想象。對(duì)此,你怎么看?
參考資料:
www.science.org/doi/10.1126/scirobotics.abo0235