科技巨頭們時(shí)不時(shí)就聲明在 AI 領(lǐng)域取得了突破性進(jìn)展,對(duì)此我們已經(jīng)見慣不驚了。
當(dāng)?shù)貢r(shí)間 2020 年 1 月 28 日,Google 在一篇博客中介紹了一款開放領(lǐng)域聊天機(jī)器人 Meena,號(hào)稱“史上最強(qiáng)”,那么這一新突破會(huì)讓人眼前一亮嗎?
【 圖片來源:Google Blog 所有者:Google Blog 】
開放領(lǐng)域聊天機(jī)器人開發(fā)難度大
實(shí)際上,設(shè)計(jì)智能聊天機(jī)器人是為了應(yīng)對(duì)信息爆炸時(shí)代存在的信息過載問題。最初,人們把聊天機(jī)器人當(dāng)作搜索引擎的終極形態(tài)進(jìn)行設(shè)計(jì)和開發(fā)。不同于現(xiàn)有的搜索引擎,聊天機(jī)器人可針對(duì)用戶的問題自然又通順地給出精準(zhǔn)的答案,節(jié)約了很多時(shí)間,從而帶來更好的用戶體驗(yàn)。
根據(jù)使用場景劃分,聊天機(jī)器人(chatbot)主要有開放域型(Open-Domain)和任務(wù)導(dǎo)向型(Task-Oriented)兩種。
其中,任務(wù)導(dǎo)向型主要有問答系統(tǒng)、對(duì)話系統(tǒng)聊天機(jī)器人,分別指基于用戶的問題給出一個(gè)回答(常用于智能搜索、智能家居中的家電控制等場景)和與用戶進(jìn)行多輪對(duì)話的聊天機(jī)器人(如客服機(jī)器人,銷售機(jī)器人等)。
而開放領(lǐng)域聊天機(jī)器人(也稱閑聊式機(jī)器人)顧名思義針對(duì)開放域的對(duì)話場景,主題、內(nèi)容不限,比如微軟小冰和蘋果 Siri。Google 在上述博客中表示:
開放領(lǐng)域聊天機(jī)器人的研究不僅具有學(xué)術(shù)價(jià)值,還可激發(fā)很多有趣的應(yīng)用,如更深層次的人機(jī)交互、提升外語訓(xùn)練效果,以及制作交互式電影和游戲角色。
值得一提的是,開放領(lǐng)域聊天機(jī)器人更符合人們心中對(duì)「人工智能」的定位,開發(fā)難度自然也很大——當(dāng)前開放領(lǐng)域聊天機(jī)器人面臨的一個(gè)嚴(yán)峻問題在于它們表達(dá)的內(nèi)容往往沒有意義,無法與用戶的問題連貫起來,而且由于缺乏基本的常識(shí)和認(rèn)知,不能給出針對(duì)性的回復(fù)。
而 Google 開發(fā)的 Meena 正是一款開放領(lǐng)域聊天機(jī)器人,那么相比現(xiàn)有的聊天機(jī)器人,究竟有何突破?
【 Meena 和人類的對(duì)話內(nèi)容 圖片來源:Google Blog 】
26 億參數(shù)的端到端神經(jīng)對(duì)話模型
Google 在博客中介紹稱,Meena 是個(gè) 26 億參數(shù)的端到端訓(xùn)練的神經(jīng)會(huì)話模型,是 GPT-2 模型最大版本(15 億參數(shù))的 1.7 倍。據(jù)稱,Google 利用 400 億字的數(shù)據(jù)集,通過 2048 個(gè)張量處理單元(即 Tensor Processing Unit,Google 專用 AI 芯片)訓(xùn)練了 30 天,得到了最佳版本。實(shí)驗(yàn)表明,比起聊天機(jī)器人 SOTA,Meena 能更好地完成對(duì)話,內(nèi)容也更具體、清楚。
據(jù)悉,Meena 由 1 個(gè) Evolved Transformer 編碼器和 13 個(gè) Evolved Transformer 解碼器組成:編碼器用于處理對(duì)話語境,有助于 Meena 理解對(duì)方的話;而解碼器則會(huì)利用信息生成回復(fù)。而在這一過程中,Google 表示:
研究人員發(fā)現(xiàn),超參數(shù)調(diào)整后,實(shí)現(xiàn)高質(zhì)量對(duì)話的關(guān)鍵在于性能更強(qiáng)的解碼器。
【 圖片來源:Google Blog 所有者:Google Blog 】
雷鋒網(wǎng)了解到,Google 從公共領(lǐng)域社交媒體對(duì)話上過濾得到了 341GB 的文本,并以樹狀脈絡(luò)形式組織文本進(jìn)行「多輪對(duì)話」訓(xùn)練。研究者將每輪對(duì)話作為訓(xùn)練樣本,同時(shí)每輪之前的 7 輪對(duì)話為語境信息,共同構(gòu)成一組數(shù)據(jù)。據(jù)悉,選擇 7 輪對(duì)話作為語境,既能保證訓(xùn)練過程獲得足夠長的語境信息,同時(shí)模型也能不超過內(nèi)存限制。畢竟文本越長,占用的內(nèi)存也越多。
新提出的人類評(píng)價(jià)指標(biāo) SSA
根據(jù)博客,上述這些表現(xiàn)是由 Google 根據(jù)新提出的人類評(píng)價(jià)指標(biāo)「Sensibleness and Specificity Average (SSA)」得出的,而此次提出新的指標(biāo)是因?yàn)椋壳傲奶鞕C(jī)器人的人類評(píng)價(jià)指標(biāo)頗為復(fù)雜,而且也很難形成一致的評(píng)價(jià)指標(biāo)。Google 表示,SSA 能捕獲基本的、但對(duì)人類對(duì)話來說很重要的屬性。
為計(jì)算這一指標(biāo),研究者測試了 Meena、Mitsuku、Cleverbot、DialoGPT 及小冰等常見的聊天機(jī)器人。在測試中,對(duì)于每一款聊天機(jī)器人,研究者都在 100 個(gè)對(duì)話中收集了 1600 到 2400 輪,各聊天機(jī)器人的回復(fù)都由人類評(píng)價(jià)者評(píng)分(主要依據(jù)對(duì)話的流暢性和回答的準(zhǔn)確性),其各自性能表現(xiàn)如下圖。
【 圖片來源:Google Blog 所有者:Google Blog 】
不難看出,Meena 相比于現(xiàn)有的 SOTA 聊天機(jī)器人,有著更高的 SSA 分?jǐn)?shù),甚至接近于人類的表現(xiàn)。
困惑度與 SSA 強(qiáng)相關(guān)
毫無疑問,人類評(píng)價(jià)或多或少存在一些問題,因此很多研究者都希望找到一個(gè)能夠自動(dòng)計(jì)算的評(píng)價(jià)指標(biāo),而且這個(gè)指標(biāo)要能和人類評(píng)價(jià)準(zhǔn)確對(duì)應(yīng)。
雷鋒網(wǎng)了解到,困惑度(perplexity,指一種任何神經(jīng)會(huì)話模型都能輕易獲得的計(jì)算指標(biāo))是 seq2seq 模型(雷鋒網(wǎng)注:一種循環(huán)神經(jīng)網(wǎng)絡(luò)的變種,包括編碼器和解碼器兩部分,是自然語言處理中的一種重要模型,可用于機(jī)器翻譯、對(duì)話系統(tǒng)、自動(dòng)文摘)中的一個(gè)常見指標(biāo),用于評(píng)價(jià)語言模型的不確定性。
而值得一提的是,Google 證明了困惑度與 SSA 高度相關(guān)。
實(shí)際上,訓(xùn)練 Meena 正是為了最大程度地減少困惑度,以及預(yù)測下一個(gè)標(biāo)記(雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))注:指對(duì)話中的下一個(gè)單詞)的不確定性——據(jù)博客稱,這是因?yàn)?Meena 的核心為 Evolved Transformer seq2seq 架構(gòu),即一種通過進(jìn)化神經(jīng)架構(gòu)搜索發(fā)現(xiàn)的 Transformer 體系結(jié)構(gòu),能夠改善困惑度。
在博客中 Google 表示,研究者依據(jù)層數(shù)、注意力數(shù)量、訓(xùn)練步數(shù)、編碼器、訓(xùn)練方式等因素,共測試了 8 種不同的模型,發(fā)現(xiàn)困惑度越低,SSA 分?jǐn)?shù)越高,同時(shí)兩者的相關(guān)系數(shù)很高(R^2 = 0.93)。
【 圖片來源:Google Blog 所有者:Google Blog 】
同時(shí) Google 表示:
研究者將繼續(xù)通過改進(jìn)算法、架構(gòu)、數(shù)據(jù)和計(jì)算量等,降低這一神經(jīng)會(huì)話模型的困惑度。
Meena 意義大嗎?
根據(jù)博客中展示的數(shù)據(jù),我們相信 Meena 的確性能出眾,不過 Meena 究竟什么時(shí)候能推出、真正推出后表現(xiàn)如何,可能都要打問號(hào)。博客中提到,目前研究團(tuán)隊(duì)正在就這一研究的風(fēng)險(xiǎn)及益處做進(jìn)一步的評(píng)估,并可能在未來幾個(gè)月內(nèi)推出 Meena,旨在推動(dòng)該領(lǐng)域的發(fā)展。
對(duì)此,VentureBeat 記者 Ronald Ashri 在其報(bào)道中表示:
首先我們要意識(shí)到,即便 Google 開源所有代碼,也很少有人能培訓(xùn)類似 Meena 的模型。Meena 應(yīng)該還在實(shí)驗(yàn)室里,操作起來也非常復(fù)雜,還不能將其整合到一個(gè)工具中,而且 Google 也不可能很快就將其作為一項(xiàng)服務(wù)向用戶提供。因此,恐怕短期內(nèi) Meena 難以推出。
另外,在實(shí)用性方面,誠然 Meena 作為一款開放領(lǐng)域聊天機(jī)器人,能夠?qū)崿F(xiàn)多輪對(duì)話。不過 Meena 并不能協(xié)助用戶完成某項(xiàng)任務(wù)、學(xué)習(xí)某項(xiàng)新技能,或?yàn)樯硖幚Ь车挠脩艚o予情感或心理支持,和用戶的聊天沒有明確的目的。而耗費(fèi)時(shí)間進(jìn)行無意義的交談,在我們所處的時(shí)代大背景下似乎并非理想產(chǎn)品。
與此同時(shí),記者 Ronald Ashri 也對(duì) Meena 提出了進(jìn)一步質(zhì)疑。正如上文所述,Google 從公共領(lǐng)域社交媒體對(duì)話上過濾得到了 341GB 的文本,以此進(jìn)行進(jìn)一步的訓(xùn)練。那么,數(shù)百萬的公共領(lǐng)域社交媒體對(duì)話會(huì)是這一所謂的「史上最強(qiáng)聊天機(jī)器人」的正確數(shù)據(jù)集嗎?Meena 是否會(huì)講出不恰當(dāng)?shù)脑?,可能也是一個(gè)我們要關(guān)注的點(diǎn)。
近年來,隨著越來越多的 AI 聊天解決方案進(jìn)入生活,我們需要關(guān)注最有價(jià)值的東西——定義類似人類的對(duì)話,并探究這類對(duì)話在聊天機(jī)器人領(lǐng)域中的角色。
正如 Ronald Ashri 所說:
Meena 讓我們更接近目標(biāo),但尚未讓我們達(dá)到目標(biāo)。