《經濟學人》日前撰文稱,人工智能專家之所以喜歡用視頻游戲來訓練算法,是因為它可以模擬現實生活中的各種場景,降低訓練成本,而且可以幫助他們更好地理解人工智能甚至自然智能的底層原理。
以下為編譯整理的原文內容:
去年,普林斯頓大學計算機學家阿瑟·菲力珀維茨(Artur Filipowicz)在處理停止標志時碰到了一個問題。菲力珀維茨博士當時正在教汽車如何識別和解讀周圍的世界,使之可以在沒有人類幫助的情況下自動駕駛。
要實現這一目標,就必須能夠識別停止標志。所以,他希望訓練一套合適的算法。這種訓練需要向算法(或者運行算法的電腦)展示許多停止標志的圖片,而且要涵蓋多種不同的環(huán)境:新標志、舊標志;干凈的標志、弄臟的標志;被卡車或建筑物部分遮擋的標志;陽光明媚、陰雨綿綿、霧氣蒙蒙的環(huán)境里的標志;白天、傍晚和夜間的標志。
要從圖庫中獲取所有圖片并非易事,而要親自跑出去逐一拍攝更是非常困難。于是,菲力珀維茨決定向《俠盜獵車手5》求助——這是該系列游戲的最新力作。
由于真實地刻畫了犯罪和暴力行為,使得《俠盜獵車手5》成為了一款頗具爭議的作品——但在菲力珀維茨看來,這卻是個理想的訓練場,因為里面也包含很多真實的停止標志。通過對這款游戲軟件進行調整,他得以從中分離出成千上萬的停止標志圖片,而且涵蓋各種各樣的環(huán)境,使得他開發(fā)的算法可以充分吸收這些信息。
像菲力珀維茨這樣的例子并不少見,很多人工智能專業(yè)的學生都對視頻游戲頗為鐘愛。之所以出現這種情況,有很多原因。菲力珀維茨這樣的人把游戲當成現實世界的預備訓練場。還有的人則是看中了不同的游戲所需的不同認知技能,因而認為游戲可以幫助他們理解如何把智能問題分解成一個個易于掌控的模塊。但也有一些人融合了這兩種模式,認為游戲可以幫助他們開發(fā)適當的人工智能理論,甚至可以用來解釋自然智能。
模擬現實
但要實現這些目標,首先要對游戲進行調整,才能直接讓其他電腦程序直接運行,而不是同時讓人關注屏幕上的各種動作。例如,通過在其中植入一個名為“Deep Drive”的軟件,便可將《俠盜獵車手5》從一個采集道路標志的圖片庫,變成無人駕駛汽車模擬器。
這樣一來,便可讓這些汽車的駕駛和導航系統(tǒng)獲得控制權——與直接上路測試相比,這種測試方式成本更低,也更為安全。
游戲公司也開始意識到這一點。例如,微軟2015年6月啟動了Project Malmo,這是一個以微軟最近收購的熱門游戲《我的世界》為基礎打造的人工智能開發(fā)平臺。2016年11月,作為策略游戲《星際爭霸2》的開發(fā)商,動視暴雪也宣布與谷歌(微博)旗下DeepMind展開合作。
第二個月,在版權所有者的允許下,獲得私人資助的舊金山研究機構OpenAI推出了Universe。這款軟件可以免費使用,里面包含了數百款可以直接使用適當的程序運行的游戲。Universe里包含很多暢銷游戲,既有《傳送門2》這樣的大制作,也有《Bubble Hit Pony Parade》和《Hames the Space Zebra》這種物美價廉的游戲。
微軟啟動Project Malmo的目的是教給人工智能軟件如何與人進行配合。為了達到這個目的,該項目負責人凱特加·霍夫曼(Katja Hofman)試圖使用《我的世界》開發(fā)一個高級個人助手。她的目標是開發(fā)一款能夠預測人類意圖的軟件,從而幫助其達成目的。
《我的世界》不像現實世界那么復雜,但其復雜程度已經足夠吸引人工智能專家的注意,因而成為了一個完美的測試場。例如,霍夫曼博士和她的同事就在使用這款游戲訓練電腦,使之與人類選手配合抓住虛擬豬。由于機器無法理解手寫指令,所以只能通過觀察人類的游戲方式來學習。
然而,視頻游戲在人工智能領域的作用可不只是訓練無人駕駛技術。事實上,由于不同的游戲需要不同的技能,因此研究人員便可借此加深對智能的理解。2015年,DeepMind發(fā)表了一篇論文,闡述了該公司的研究人員如何訓練人工神經網絡(這是一種大致模擬生物大腦的程序)運行雅達利上世紀七八十年代發(fā)布的幾十款不同的游戲。
對神經網絡來說,有的游戲較難掌握,有的相對容易?!禕reakout》有點像單人版網球,玩起來相對容易。目標是用彈球擊中漂浮的磚塊。玩家可以做兩件事情:向左或向右移動球拍。如果失敗,就會立刻受到懲罰(丟球就會少一條命)。類似地,如果成功也會立刻得到獎勵(每打中一個磚塊都可以加分)。
由于規(guī)則簡單,而且可以立刻獲得反饋,所以很適合DeepMind的神經網絡。它玩《Breakout》的水平很高,甚至達到專業(yè)人類游戲測試員的10倍。
其他游戲沒有那么簡單。在《Montezuma’s Revenge》游戲中,目標是找到藏在危險金字塔深處的寶藏。為了完成任務,玩家必須首先達成很多目標,例如找到鑰匙打開門。這種游戲的反饋不像《Breakout》那么快——鑰匙可能在一個地方,但要打開門卻要跑到更遠的另外一個地方。不僅如此,還需要完成數以千計的動作后才能獲得最終的獎勵——找到寶藏。
這就意味著神經網絡很難建立因果關系。與《Breakout》的優(yōu)異表現相比,人工智能在《Montezuma’s Revenge》游戲中幾乎沒有取得進步。
自那之后,DeepMind研究人員便調整了算法,加強系統(tǒng)對事物的好奇心,通過更大的獎勵鼓勵其展開探索和實驗。這樣一來,它就更有可能發(fā)現那些無法立刻顯現出效果的一流策略。
這種方式不僅限于掌握虛擬世界的各種技巧,還可以應用到現實世界。例如,DeepMind的算法已經應用到谷歌的數據中心,并且成功將能耗降低了40%。事實上,完全可以將這樣的任務當做游戲看待。要降低數據中心的能耗,神經網絡可以對冷卻液泵和和負載分布等設置進行調整,同時密切關注能源使用狀況。“得分”越低,表明效果越好。
遷移學習
在現階段,通過調整游戲程序來降低數據中心的能源預算,就像從頭教給人工智能如何玩一款新游戲一樣。這是因為DeepMind的原始神經網絡一次只能運行一款游戲。例如,為了理解《Breakout》,它必須忘記自己掌握的《Space Invaders》游戲的內容。
這種健忘癥是人工神經網絡的特性——也是它區(qū)別于人類大腦的關鍵。這種神經網絡由虛擬神經組成,它們通過系統(tǒng)性調整這些虛擬神經之間的連接強度進行學習。如果改變需要學習的任務,之前的連接網絡就會逐漸被替換。
但現在,正如他們在今年3月發(fā)表的一篇論文中所說,DeepMind的程序員已經克服了這個問題,使得神經網絡可以像人腦一樣同時掌握多款游戲。這便向著“遷移學習”邁出了一步——遷移學習指的是把一種背景下學會的行為模式應用到另外一個背景中,這是當今人工智能研究領域的熱門話題。
就像展示好奇心和延后獎勵一樣,遷移學習對人類來說毫無難度,但機器卻很難掌握。于是,游戲又一次在研究中扮演了重要角色。
例如,紐約大學的朱利安·托格流斯(Julian Togelius)組織了一場名為“普通視頻游戲人工智能競賽”的挑戰(zhàn)賽:參加者必須開發(fā)一款會玩10款不同視頻游戲的程序,而且要具備一定的能力。值得一提的是,無論是程序本身還是負責開發(fā)的程序員,之前都不能接觸過這些游戲。這就要求軟件掌握許多技能,包括規(guī)劃、探索、決策等,而且還要懂得使用這些能力來解決之前沒有遇到的問題。
但即便是掌握了遷移學習能力,構建有用的人工智能仍然是一項繁瑣的任務。研究人員希望掌握一套基礎理論,以便能夠系統(tǒng)性地實現這一目標。其中一種候選理論名為“體驗認知”,該理論認為,不應該從一開始就給程序設計智能,而是應該完全通過體驗來學習。
霍夫曼特別支持這種方法。她認為,視頻游戲是探索這種想法的完美平臺。之前關于體驗認知的研究是在1980年代進行的,當時是在機器人身上配置傳感器,讓其通過四處跑動和偶然碰到各種事情來了解現實世界的運作方式。當時的研究人員在這方面的確取得了一定的成功,但在擴大試驗規(guī)模時卻遇到問題。
DeepMind的大衛(wèi)·西爾沃(David Silver)表示:“機器人有齒輪、轉輪和發(fā)動機,以及各種高精度零件,所以需要花費很多時間來維護?!?/span>
簡化過程
視頻游戲可以簡化這一過程。虛擬世界的虛擬機器人沒有重量,也沒有傳動部件,所以無需維護。如果要對規(guī)格進行調整,也不需要把它拆開,只需要敲擊幾下鍵盤即可完成。
環(huán)境也可以輕易調整。改變迷宮路徑不再需要大動干戈,一臺電腦便可同時運行數千個模擬程序,使得虛擬機器人一遍一遍地嘗試任務,不斷學習。這種大規(guī)模測試也讓研究人員得以監(jiān)督和理解學習過程。如果使用的是真正的機器,根本無法達到這種效果。
DeepMind創(chuàng)始人戴密斯·哈薩比斯(Demis Hassabit)認為,關鍵是確保虛擬機器人不能作弊。一定要讓它完全根據虛擬傳感器所能收集的信息來采取行動。不能在模擬場景上開后門。如果這些機器人想要適應《Montezuma’s Revenge》里的金字塔或者《俠盜獵車手》里的虛擬城市,就必須搞清楚自己所處的位置和周圍的狀況,而不能向電腦詢問相關信息。DeepMind在教程序玩游戲時就采取了這種方法。
通過這種方法研究體驗認知是對人工智能游戲方式的合理總結。這似乎也是比較恰當的一種方式。無論是狗還是人,任何一種智能生物年輕的時候都會通過玩來構建類似于“體驗認知”的東西。進化過程并沒有計算機作為輔助,但無論是在人工世界還是自然世界中,這種活動的出發(fā)點都是為了讓“玩家”學會應對最大的游戲——那就是現實。