撰文:南安
Deep Wolf:天黑請閉眼,歡迎來到狼村。
狼人殺游戲,是一種基于自由自然語言交流的社交推理游戲。在狼人殺中,所有玩家(通常為 5-10 人)被隨機分配一個角色(如平民、狼人、女巫、叛徒和預言家等),他們試圖推斷其他玩家的角色。
“好人陣營”中有平民、女巫和預言家等角色,在白天投票驅逐狼人;“狼人陣營”方面,狼人試圖在夜晚殺死平民,而叛徒試圖擾亂平民。玩家必須欺騙其他玩家才能生存,對話之中不可避免地包含大量虛假信息。為了在游戲中獲勝,玩家需要記住對話的細節(jié),對其他玩家的角色做出假設,并發(fā)現(xiàn)其中的矛盾。
不少玩家表示自己是“狼人殺黑洞”,沒有辦法準確識別他人的“謊言”,抑或是不知道如何思考話術和邏輯而消極應對——“我是好人,昨晚發(fā)生了什么我都不知道。反正我是‘好人’?!奔词鼓玫健邦A言家”“女巫”等功能性身份例如,也不會推理發(fā)言,只能渾水摸魚。
如果讓 AI 玩狼人殺游戲,它會有怎樣的表現(xiàn)?近日,一款名為 Deep Wolf 的 AI 語言模型被證明能夠理解自然語言并扮演狼人殺中的角色,在游戲中成為人類的游戲助手或競技對手。Deep Wolf 通過 Longformer 理解語言,然后用強化學習方法來訓練,最終決定投票誰出局或者“刀”誰。
相關研究論文以“Playing the Werewolf game with artificial intelligence for language understanding”為題,已發(fā)表在預印本網站 arXiv 上。
AI 玩狼人殺,能力如何?
目前,大多數 AI 系統(tǒng)在其所處理的大量數據是正確的假設下學習和輸出數據。然而,由于真實社會受到虛假信息的困擾,如果 AI 能夠檢測到矛盾和虛假信息是極其有幫助的。
狼人殺的一個重要特點是,大部分對話都是虛假信息,而 AI 在這種情況下的行為尚未得到廣泛調查。同時,雖然很難開發(fā)出能夠檢測真實世界中各種謊言的人工智能,但狼人中相對有限的詞匯量和處理的信息類型吸引了學者的注意。據此,這項研究旨在開發(fā)一種可以通過自然語言對話扮演狼人殺角色的 AI 代理。
通過收集 15 名人類玩家的游戲日志,學者 Hisaichi SHIBATA、 Soichiro MIKI、Yuta NAKAMURA 對基于 Transformer 的預訓練語言模型進行了微調,構建了一個價值網絡,該網絡能夠預測在游戲的任何給定階段贏得游戲的后驗概率,并為下一步行動提供候選。
另外,基于從價值網絡中獲得的概率,研究者開發(fā)了一個名為 Deep Wolf 的 AI 代理,它可以與人類交互并選擇最佳投票目標。
最后,他們通過真正讓 Deep Wolf 與人類玩家玩狼人殺并收集其勝率來評估人工智能代理的性能。
價值網絡的行為。在游戲的早期階段,當價值網絡的角色是狼人時,后驗概率總是很低;而在扮演預言家時后驗概率總是很高。這表明,在這個五人版狼人殺中。價值網絡有能力正確估計獲勝的概率,并且在判斷平民一方有優(yōu)勢。
圖|五名人類玩家的勝率。N/A意味著定義勝率,因為沒有執(zhí)行任何競爭
Deep Wolf的表現(xiàn)。叛徒和平民的平均勝率與 Deep Wolf 扮演背叛者和平民的勝率沒有明顯區(qū)別。這表明,如果 Deep Wolf 的角色是叛徒或平民,和普通人類玩家能力相當;而在扮演狼人或預言家角色時,則不如人類玩家。
圖|四名人類玩家和一名 AI 玩家的勝率
AI 玩家加入,打開狼人殺新格局
這項研究首次建立了一個 AI 代理,它可以通過與人類玩家理解自然語言來扮演狼人殺中的角色。這意味著當前的語言模型有能力理解陳述、說謊或檢測對話中的謊言。
在這項研究中,三位學者僅僅基于 32 份游戲日志對 Deep Wolf 進行了訓練和評估。如果能獲得更多的游戲日志,對 AI 代理進行訓練,可能提高其性能,讓 AI 玩家變得更強,從而提升游戲的競技性。
同時,在涉及 AI 代理的游戲中,除了推斷另一個玩家的角色之外,還有一項額外的任務,即推斷每個玩家是 AI 代理還是人類,評估人類玩家在這種情況下使用的策略的變化將是一個有趣的話題。此外,AI 玩家能夠為狼人殺帶來更多的可能性,例如,全部角色都使用 AI 代理,人類僅僅作為游戲觀眾?
那么,你愿意讓 Deep Wolf 加入你的狼人殺游戲嗎?
附錄:一份AI參與的狼人殺游戲日志
圖|#1是預言家,#2和#4是平民,#3是AI(Deep Wolf)扮演的狼人,#5是叛徒
論文鏈接:
https://arxiv.org/abs/2302.10646