對(duì)于那些認(rèn)為人工智能是威脅的人來(lái)說(shuō),可能不太喜歡 DeepMind 的最新研究成果。這家隸屬于 Alphabet 的人工智能部門(mén)提出了名為 MuZero 的新算法,能夠讓機(jī)器在不了解規(guī)則的情況下成功擊敗人類(lèi)選手。這絕對(duì)是人工智能領(lǐng)域的一個(gè)驚人發(fā)展,因?yàn)樵撍惴軌蜃屓斯ぶ悄芨玫氐膽?yīng)對(duì)現(xiàn)實(shí)生活中的場(chǎng)景,而且不需要提供任何特定的算法。
DeepMind 在探索人工智能的道路上從未停止腳步。在 AlphaGo 學(xué)會(huì)圍棋并成功擊敗職業(yè)圍棋手之后,DeepMind 又推出了 AlphaGo Zero,通過(guò)觀察人和人之間的真實(shí)比賽,然后讓兩臺(tái)計(jì)算機(jī)一同來(lái)下棋。
隨后,該團(tuán)隊(duì)再次推出了 AlphaZero,只是在告知游戲規(guī)則的情況下,實(shí)現(xiàn)了對(duì)圍棋、將棋和國(guó)際象棋的熟練掌握。而現(xiàn)在該團(tuán)隊(duì)推出的 MuZero,并沒(méi)有告知任何的棋類(lèi)運(yùn)行規(guī)則,讓它自己通過(guò)觀察來(lái)掌握圍棋、國(guó)際象棋、將棋和 Atari 游戲。
MuZero 在沒(méi)有傳授規(guī)則的情況下可以自己學(xué)習(xí),制定相應(yīng)的計(jì)劃并取得勝利。MuZero 可以在雅達(dá)利游戲中做同樣的事情。新的人工智能在學(xué)習(xí)了規(guī)則之后,可以變得和以前的版本一樣好,甚至比以前的版本更好。
這個(gè)項(xiàng)目的目標(biāo)是提供一個(gè)單一的算法,可以讓AI在不知道該方案的規(guī)則的情況下想出下一步行動(dòng)。對(duì)于象棋和圍棋這樣的游戲來(lái)說(shuō),這可能說(shuō)起來(lái)容易做起來(lái)難,因?yàn)樵谶@些游戲中,有一套預(yù)定義的動(dòng)作可以讓你獲得勝利或失敗。但在大多數(shù)現(xiàn)實(shí)世界的情況下,如果沒(méi)有獲得復(fù)雜的算法,人工智能可能難以駕馭更多的種類(lèi),而這種算法基本上可以讓它思考。
但事實(shí)上 MuZero 并不會(huì)自己思考,更沒(méi)有達(dá)到科幻小說(shuō)/電影中可怕的人工智能。然而,DeepMind確實(shí)達(dá)到了一個(gè)重要的里程碑,如果它的算法允許計(jì)算機(jī)在它不知道所有規(guī)則的模擬中提出一個(gè)勝利的解決方案。
Engadget解釋說(shuō),MuZero在做決定時(shí)會(huì)考慮三件事。首先,它會(huì)考慮上一次行動(dòng)的結(jié)果、當(dāng)前所處的位置以及下一次行動(dòng)的最佳方案。DeepMind發(fā)現(xiàn),MuZero與之前的AIs相匹配。而且,它的時(shí)間越多,它提供的解決方案就越好。即使加入了時(shí)間限制,比如在行動(dòng)前限制吃豆人女士的模擬次數(shù),MuZero也取得了不錯(cuò)的效果。