語音交互是機器人用來表達的出口,大數(shù)據(jù)是機器人用來更加準確判!
金融行業(yè)是大數(shù)據(jù)與人工智能落地最具潛力的行業(yè)之一。金融行業(yè)是數(shù)據(jù)密集型行業(yè),金融數(shù)據(jù)具有更高的實時性、安全性和穩(wěn)定性的要求,結(jié)構(gòu)化數(shù)據(jù)占比高,應用場景廣泛。但與此同時,金融行業(yè)還有賴于利用第三方數(shù)據(jù)來為客戶提供更好的服務,自身業(yè)務特點也對金融數(shù)據(jù)的數(shù)據(jù)安全和個人隱私保護帶來了極大的困難,數(shù)據(jù)孤島現(xiàn)象嚴重,這也是為何聯(lián)邦學習首先在微眾銀行這樣的創(chuàng)新金融企業(yè)落地和開花結(jié)果的原因。
隨著深度學習神經(jīng)網(wǎng)絡的提出、算法改善和算力的提升、以及大數(shù)據(jù)的廣泛應用,人工智能迎來了一波新的高峰。2016 年的「人機大戰(zhàn)」AlphaGo 戰(zhàn)勝圍棋世界冠軍李世石,不僅展示了以大數(shù)據(jù)驅(qū)動的人工智能的巨大潛力,也讓人們更加期待一個人工智能在各行各業(yè)中得以實現(xiàn)的新時代的到來。
然而理想很豐滿,現(xiàn)實很骨感——在實際應用中,大多數(shù)應用領(lǐng)域均存在數(shù)據(jù)有限且質(zhì)量較差的問題,在某些專業(yè)性很強的細分領(lǐng)域(如醫(yī)療診斷)更是難以獲得足以支撐人工智能技術(shù)實現(xiàn)的標注數(shù)據(jù)。同時在不同數(shù)據(jù)源之間存在難以打破的壁壘,「大數(shù)據(jù)」往往只是越來越多的「數(shù)據(jù)孤島」的總稱。
語言建模成功是有原因的!它是一項非常困難的工作,為了有機會解決這個難題,模型需要學習語法,語義以及某些世界常識。給定足夠的數(shù)據(jù),大量參數(shù)和足夠的計算能力,模型就可以有不錯的學習成果。根據(jù)過往的實驗來看,語言建模比翻譯或自動編碼等其它預訓練工作更有效。
最近對人類語言的預測率失真 (PRD) 的分析 (Hahn and Futrell, 2019) 研究表明,人類語言和語言建模都具有無窮高的統(tǒng)計復雜性,但語言建??梢栽谳^低層次上模仿逼近人類語言。這一觀察結(jié)果有兩個啟示:1)我們可以用相對較小的模型以獲得較為精準的結(jié)果;2)我們的模型有很大的拓展?jié)摿?。對于這兩種啟示,我們都有充足證據(jù),我們可以在下一節(jié)中看到。
簡單的做法可以是在預訓練的模型之上添加一個或多個線性層,通常是在 Bert 基礎上增加?;蛘呶覀円部梢允褂媚P洼敵鲎鳛榱硪粋€模型的輸入。當目標任務需要預訓練的嵌入有一些交互作用但目前的預訓練模型執(zhí)行不了時,這通常是有幫助的,例如以 BERT 為預訓練模型但需要詞匯表征或建立跨句子關(guān)系模型。
我們希望這樣做的原因之一可能是為了適應結(jié)構(gòu)不同的設定目標,例如一個具有多個輸入序列的任務。在這種情況下,我們可以使用預訓練的模型盡可能初始化結(jié)構(gòu)不同的設定模型。我們還可以應用于特定項目的修改,例如添加、跳過或連接或警示。最后,修改目標任務的參數(shù)可以通過在預訓練的模型層之間添加瓶頸模塊 (適配器)來減少需要精細調(diào)整的參數(shù)數(shù)量。
同時隨著大數(shù)據(jù)的發(fā)展,重視數(shù)據(jù)隱私和安全已經(jīng)成為一種世界性的趨勢,而歐盟「數(shù)據(jù)隱私保護條例」(General Data Protection RegulaTIon,GDPR)等一系列條例的出臺更是加劇了數(shù)據(jù)獲取的難度,這也給人工智能的落地應用帶來了前所未有的挑戰(zhàn)。