在利用深度學(xué)習(xí)進(jìn)行算法訓(xùn)練時(shí),數(shù)據(jù)在算法模型迭代的過(guò)程中并不會(huì)產(chǎn)生理想化的“網(wǎng)絡(luò)效應(yīng)”,要避免數(shù)據(jù)、計(jì)算等資源成為成本中心,自動(dòng)化的算法生成和數(shù)據(jù)標(biāo)注可能是最高效的解決辦法。作為中國(guó)人工智能領(lǐng)軍企業(yè),曠視似乎已經(jīng)在深度學(xué)習(xí)等底層技術(shù)上找到問(wèn)題最優(yōu)解,這對(duì)其他人工智能企業(yè)有著重要的借鑒意義。
圖:曠視以Brain++深度學(xué)習(xí)框架解決數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)失效帶來(lái)的成本問(wèn)題
通俗來(lái)講,“網(wǎng)絡(luò)效應(yīng)”就是當(dāng)一個(gè)產(chǎn)品使用的人越多,它的價(jià)值便越大,例如社交軟件。放到AI的場(chǎng)景中,數(shù)據(jù)的“網(wǎng)絡(luò)效應(yīng)”體現(xiàn)在當(dāng)數(shù)據(jù)量越多時(shí),訓(xùn)練出來(lái)的AI算法質(zhì)量將越高,識(shí)別效果越好或準(zhǔn)確率越高,最后投入到實(shí)際應(yīng)用中產(chǎn)生的商業(yè)價(jià)值就越大。那么當(dāng)越來(lái)越多場(chǎng)景使用高質(zhì)量算法的時(shí)候,數(shù)據(jù)集的獲取成本分?jǐn)傁聛?lái)就會(huì)越來(lái)越低。
但數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)放在AI場(chǎng)景的實(shí)際效果并非如此。相關(guān)資料顯示,盡管大部分條件下數(shù)據(jù)的確具有網(wǎng)絡(luò)效應(yīng),通過(guò)數(shù)據(jù)訓(xùn)練生產(chǎn)算法能夠?qū)?zhǔn)確率提高到50%甚至更高,但再向上提升則十分困難。因此,當(dāng)AI公司剛進(jìn)入新場(chǎng)景時(shí)需要至少得到一套最小價(jià)值數(shù)據(jù)源(minimum viable corpus)進(jìn)行訓(xùn)練,找到滿足基本場(chǎng)景的算法組合,然后再收集盡可能多的極端案例進(jìn)行持續(xù)迭代。
但是如此一來(lái)就會(huì)造成兩個(gè)問(wèn)題:數(shù)據(jù)獲取成本將隨著算法升級(jí)而越來(lái)越高,且數(shù)據(jù)很可能會(huì)過(guò)時(shí),老舊的數(shù)據(jù)需要及時(shí)被剔除或重新標(biāo)注。同時(shí),由于越往后算法迭代的耗時(shí)越長(zhǎng),服務(wù)器成本與人工干預(yù)輸出處理成本將有所增長(zhǎng)。那么,要如何解決“數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)”在AI中逐漸失效并隨之引發(fā)的各類(lèi)成本問(wèn)題呢?對(duì)此,曠視給出的答案是人工智能算法平臺(tái)Brain++和人工智能數(shù)據(jù)管理平臺(tái)Data++。
Brain++是曠視自研的一套端到端的AI算法平臺(tái),采用了AutoML技術(shù),使曠視構(gòu)建出一條不斷自我改進(jìn)、不斷變得更加自動(dòng)化的半自動(dòng)的算法開(kāi)發(fā)生產(chǎn)線。基于Brain++,曠視就能夠針對(duì)不同垂直領(lǐng)域的碎片化需求定制豐富且不斷增長(zhǎng)的算法組合,包括很多長(zhǎng)尾需求,并且能以更少的人力和更短的時(shí)間開(kāi)發(fā)出各種新算法,能夠有效避免數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)失效引發(fā)的各類(lèi)成本問(wèn)題。
曠視Data++則能夠有效管理并安全儲(chǔ)存曠視用作算法訓(xùn)練的數(shù)據(jù),允許多個(gè)研究人員同時(shí)訪問(wèn)同一套數(shù)據(jù)進(jìn)行訓(xùn)練,并支持半自動(dòng)數(shù)據(jù)處理及標(biāo)注。在算法訓(xùn)練中,Data++也從根本上降低了帶寬及人工標(biāo)注成本。也因此,曠視在2019年成功發(fā)布了全球最大物體檢測(cè)數(shù)據(jù)集Objects365。從數(shù)據(jù)質(zhì)量、體量上來(lái)看,都遠(yuǎn)遠(yuǎn)超過(guò)現(xiàn)有的ImageNet、COCO數(shù)據(jù)集。要知道內(nèi)生的數(shù)據(jù)集覆蓋范圍越全、質(zhì)量越高,企業(yè)外購(gòu)的需求才會(huì)越少,成本也才更可控。
人工智能從上個(gè)世紀(jì)60年代就開(kāi)始起步,但最近幾年才真正迎來(lái)發(fā)展高潮。我國(guó)2019年人工智能產(chǎn)業(yè)規(guī)模達(dá)到105.5億美元,預(yù)計(jì)到2022年產(chǎn)業(yè)規(guī)模將接近300億美元。但是具體來(lái)看,人工智能近年來(lái)突飛猛進(jìn)主要有兩方面因素。一個(gè)是因?yàn)榉e累了大量的數(shù)據(jù)。另外一個(gè)是由于這些算法的進(jìn)步,使得這些算法可以在這些數(shù)據(jù)里學(xué)習(xí)到越來(lái)越多的知識(shí),所以實(shí)際上總結(jié)起來(lái)就是深度學(xué)習(xí)技術(shù)把人工智能推向了一個(gè)新的高潮。因此,曠視自研人工智能算法平臺(tái)Brain++,并計(jì)劃將于今年3月底對(duì)其核心深度學(xué)習(xí)框架 MegEngine進(jìn)行開(kāi)源,進(jìn)一步解決行業(yè)成本控制問(wèn)題,加速人工智能落地,推動(dòng)我國(guó)經(jīng)濟(jì)高質(zhì)量發(fā)展。