久久99国产精品久久99_日韩在线第二页_日韩人妻无码一区二区三区久久_久久亚洲私人国产精品

咨詢(xún)熱線:021-80392549

 QQ在線  企業(yè)微信
 資訊 > 人工智能 > 正文

人工智能讓經(jīng)典電影重現(xiàn)當(dāng)年風(fēng)采

2020/03/11337

老照片、老電影總能讓人們的思緒飄回那些久遠(yuǎn)的年代,沉淀于其中,可與此同時(shí),模糊的畫(huà)面又不免給記憶蒙上了一層薄霧。如今,隨著人工智能技術(shù)的發(fā)展,SRGAN(超分辨率生成對(duì)抗網(wǎng)絡(luò))使得撥散云霧始見(jiàn)真,成倍還原了畫(huà)面質(zhì)量。

2019年底,WAIC開(kāi)發(fā)者·上海臨港人工智能開(kāi)發(fā)者大會(huì)的開(kāi)幕式上,上海市經(jīng)濟(jì)和信息化委員會(huì)副主任張英為上海市人工智能創(chuàng)新中心授牌,深蘭科技等7家企業(yè)首批入選,同時(shí)深蘭科技兩項(xiàng)應(yīng)用場(chǎng)景方案入圍“上海市第二批人工智能試點(diǎn)應(yīng)用場(chǎng)景”。

其中,在AI+文化旅游場(chǎng)景中,深蘭科技入圍成為上海文化廣告影視集團(tuán)有限公司的解決方案供應(yīng)商,將為其提供視頻圖像質(zhì)量增強(qiáng)技術(shù),通過(guò)智能算法提高視頻畫(huà)面質(zhì)量,使2K高清素材達(dá)到4K超高清要求,優(yōu)化提升老舊節(jié)目的圖像清晰度。

今天,就來(lái)個(gè)承上啟下,回顧前一年成績(jī)的同時(shí),也用創(chuàng)新和進(jìn)步為新的一年注入能量。獲獎(jiǎng)方案的團(tuán)隊(duì)負(fù)責(zé)人、深蘭科學(xué)院深度學(xué)習(xí)科學(xué)家方林博士,給出了實(shí)現(xiàn)超分辨率的SRGAN模型的網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練步驟和損失函數(shù),將幫助GAN的初學(xué)者理解對(duì)抗網(wǎng)絡(luò)的實(shí)質(zhì),為今后設(shè)計(jì)更加復(fù)雜的超分模型打下基礎(chǔ)。

超分辨率

超分辨率的目的是把低分辨率的圖像或者視頻轉(zhuǎn)為高分辨率,比如:

我們利用超分辨率生成式對(duì)抗網(wǎng)絡(luò)(SRGAN, Super Resolution Generative Adversarial Network)實(shí)現(xiàn)超分辨率。

下面我們通過(guò)一個(gè)簡(jiǎn)單的SRGAN模型來(lái)說(shuō)明超分模型的基本結(jié)構(gòu)和訓(xùn)練步驟。

圖片準(zhǔn)備

超分模型由兩張圖片組成,第一張是模糊圖片,形狀為[128, 128, 3];第二張是對(duì)應(yīng)的清晰圖片,形狀為[512, 512, 3]。清晰圖片的長(zhǎng)寬分別是模糊圖片的長(zhǎng)寬的4倍。我們的目標(biāo)是把模糊圖片的分辨率提高16倍。

圖片必須是一一對(duì)應(yīng)的,即一張模糊圖片必須有對(duì)應(yīng)的一張清晰圖片。為了準(zhǔn)備圖片,我們先收集足夠數(shù)量(最好2萬(wàn)張以上)的清晰圖片,圖片的長(zhǎng)度和寬度應(yīng)該都大于等于512。然后選取任意一個(gè)512*512的部分進(jìn)行剪裁。

注意:

不要把一個(gè)大的圖片resize成512*512大小,因?yàn)檫@會(huì)導(dǎo)致圖片變形;

由于我們可以在大圖片的任意位置剪裁出512*512的圖片,所以長(zhǎng)度或者寬度大于512的圖片可以生成多個(gè)清晰圖片。比如520*520的圖片可以生成64個(gè)清晰圖片。

當(dāng)我們獲得了所有清晰圖片之后,再把每張清晰圖片resize到128*128大小,這樣我們就獲得了模糊圖片。OpenCV的resize()方法可以幫助我們改變圖片大小。

SRGAN模型

1、主要結(jié)構(gòu)

SRGAN模型結(jié)構(gòu)如下圖所示:

圖中“模糊”是指模糊圖片,“清晰”是指清晰圖片,“生成”是指生成器生成的圖片。生成圖片的分辨率與清晰圖片相同,為512*512。模糊圖片的分辨率是128*128,為清晰圖片的1/16。

上圖中的模型主要由生成器和辨別器兩部分組成。生成器的目的是輸入模糊圖片(圖中的“模糊”),輸出生成圖片(圖中的“生成”)。辨別器的輸入由a、b兩個(gè)參數(shù)組成。其中b是模糊圖片,a是生成圖片或者清晰圖片。辨別器的目的是判斷圖片a是否是真實(shí)的清晰圖片。b是用來(lái)協(xié)助辨別器進(jìn)行判斷的。辨別器的輸出p是一個(gè)概率,1表示a是100%的真實(shí)清晰圖片,0%表示a是100%的生成圖片。

訓(xùn)練上述模型時(shí),生成器總是盡可能生成像真實(shí)圖片的圖片,而辨別器則盡可能分辨出a是真實(shí)圖片還是生成圖片。所以辨別器和生成器之間存在著一種對(duì)抗:生成器越優(yōu)化,辨別器越不能分辨生成圖片的真假;辨別器越優(yōu)化,生成器生成的圖片就越不能通過(guò)辨別器的檢查。對(duì)抗的結(jié)果是雙方的能力都得到了提高,最后達(dá)到納什均衡:即生成器生成了很像真實(shí)圖片的圖片,連辨別器也無(wú)法分辨其中的真假。這就是SRGAN的基本原理。

2、生成器結(jié)構(gòu)

生成器的輸入是128*128的3通道圖片,輸出是512*512的3通道圖片。SRGAN使用U型網(wǎng)絡(luò)實(shí)現(xiàn)這種圖片到圖片的轉(zhuǎn)化,結(jié)構(gòu)如下:

請(qǐng)注意:

第一,整個(gè)U型網(wǎng)絡(luò)的左半部分全部由卷積操作組成,用來(lái)抽取輸入圖像的特征。右半部分全部由反卷積操作組成,用來(lái)根據(jù)特征構(gòu)建清晰圖片。由于輸出圖片比輸入圖片大4倍,所以右邊比左邊高出一截。

第二,左右兩邊相同大小的圖片之間的連線稱(chēng)為捷徑,表示左邊的圖片與右邊的圖片進(jìn)行加法操作,結(jié)果保留在右邊。這是借用了殘差神經(jīng)網(wǎng)絡(luò)(ResNet)的做法。不過(guò)ResNet中的捷徑跨越相同數(shù)量的操作,而這里的捷徑跨越不同數(shù)量的操作,并且越上方的捷徑離輸入和輸出越近,快速傳播梯度的效果越好。

第三,左邊最后的卷積和最后的反卷積操作都不含激活函數(shù),并且整個(gè)網(wǎng)絡(luò)中不使用Dropout,這樣做的原因超出了本文的討論范疇,這里不敘述。

3、辨別器結(jié)構(gòu)

辨別器有兩個(gè)輸入,a表示要判斷真假的圖片,b是輔助辨別器判斷的模糊圖片。兩者的分辨率分別是512*512和128*128。對(duì)于參數(shù)a,我們采用卷積操作不斷提純其特征,最后全連接到一個(gè)神經(jīng)元,最后經(jīng)過(guò)sigmoid激活后得到一個(gè)概率。這條路徑我們稱(chēng)為主路徑。參數(shù)b,我們通過(guò)resize改變其大小,然后從側(cè)面切入到主路徑中去,從而影響特征的提取。下圖顯示了辨別器結(jié)構(gòu):

請(qǐng)注意,全連接之后使用sigmoid激活函數(shù),這樣可以獲得概率值。

SRGAN訓(xùn)練

SRGAN的訓(xùn)練分三步完成。第一步,訓(xùn)練辨別器識(shí)別真樣本。這一步圖示如下:

這一步的目的是用每一對(duì)模糊和清晰圖片訓(xùn)練辨別器,使得辨別器的輸出盡可能趨近于1。注意:清晰圖片對(duì)應(yīng)于參數(shù)a,模糊圖片對(duì)應(yīng)于參數(shù)b,辨別器的期望輸出是1。

假設(shè)我們用函數(shù) disc(a,b) 表示辨別器的輸出(表示a為真實(shí)樣本的概率),則這一步的損失可以用交叉熵表示為:

其中a和b分別表示真實(shí)的清晰圖片和對(duì)應(yīng)的模糊圖片。

第二步,訓(xùn)練辨別器識(shí)別假樣本。這一步圖示如下:

請(qǐng)注意:生成器在這一步中是固定不變的,只有辨別器才被優(yōu)化。這是因?yàn)檫@一步只是為了訓(xùn)練辨別器識(shí)別假樣本,也就是說(shuō)辨別器的期望輸出是0,所以就不能改動(dòng)生成器。否則就會(huì)導(dǎo)致生成器試圖生成讓辨別器輸出為0的圖片,這不是生成器所期望的。生成器應(yīng)該期望生成能讓辨別器以為是真(即辨別器輸出為1)的圖片。

很多算法工程師不清楚在這一步訓(xùn)練中如何達(dá)到僅訓(xùn)練一個(gè)模塊(比如說(shuō)辨別器),而固定其他模塊(比如說(shuō)生成器)的目的。

在Tensorflow中,一般地,我們可以調(diào)用函數(shù):

來(lái)實(shí)現(xiàn)梯度的反向傳播和對(duì)模型參數(shù)的優(yōu)化。此時(shí)我們只需指定第二個(gè)參數(shù)varlist等于辨別器中所有可訓(xùn)練參數(shù)的列表(list)即可。其他未被指定的參數(shù)(比如生成器中的參數(shù))就不會(huì)被優(yōu)化,也就是說(shuō),被固定了。

假設(shè)我們用函數(shù)gen()表示生成的輸出,則這一步辨別器的輸出是:

由于這一步辨別器的期望輸出是0,所以這一步的損失可以用交叉熵表示為:

第三步,訓(xùn)練辨別器識(shí)別假樣本。這一步圖示如下:

請(qǐng)注意,在這一步訓(xùn)練中辨別器被固定住了,保持不變,被訓(xùn)練優(yōu)化的是生成器。因?yàn)檫@一步的目的是要讓生成器生成辨別器以為是真實(shí)圖片的圖片,所以辨別器的期望輸出是1。此時(shí)我們必須固定住辨別器,否則辨別器會(huì)變成這個(gè)樣子:不管生成器輸出什么樣的圖片,辨別器都盡可能輸出1。顯然,這不是我們所期望的。

這一步訓(xùn)練的結(jié)構(gòu)跟第二步相同,不同的是固定的是什么,訓(xùn)練的是什么,以及辨別器的期望輸出不同。

由于這一步辨別器的期望輸出是1,所以這一步的損失可以用交叉熵表示為:

我們可以發(fā)現(xiàn),第二步和第三步訓(xùn)練的輸入數(shù)據(jù)都是b,網(wǎng)絡(luò)的輸出都是disc(gen(b),b), 但是期望輸出一個(gè)是0,另一個(gè)是1。對(duì)抗由此產(chǎn)生,最終的結(jié)果將達(dá)到納什均衡。理想情況下,disc(gen(b),b) 的結(jié)果既不是0也不是1,而是接近0.5。

我們有了三個(gè)訓(xùn)練步驟,有了三個(gè)損失函數(shù),并且知道每一步訓(xùn)練什么、固定什么,則依次循環(huán)執(zhí)行這三步訓(xùn)練就能達(dá)到實(shí)現(xiàn)超分模型的目的。

本文是對(duì)GAN和SRGAN的一個(gè)簡(jiǎn)單說(shuō)明,是給初學(xué)者理解SRGAN模型看的,沒(méi)有涉及到GAN更高深的知識(shí)(比如WGAN和推土機(jī)距離等)。如有錯(cuò)漏之處希望給以批評(píng)指正。

關(guān)鍵詞:




AI人工智能網(wǎng)聲明:

凡資訊來(lái)源注明為其他媒體來(lái)源的信息,均為轉(zhuǎn)載自其他媒體,并不代表本網(wǎng)站贊同其觀點(diǎn),也不代表本網(wǎng)站對(duì)其真實(shí)性負(fù)責(zé)。您若對(duì)該文章內(nèi)容有任何疑問(wèn)或質(zhì)疑,請(qǐng)立即與網(wǎng)站(www.gzlyhb.com)聯(lián)系,本網(wǎng)站將迅速給您回應(yīng)并做處理。


聯(lián)系電話:021-31666777   新聞、技術(shù)文章投稿QQ:3267146135   投稿郵箱:syy@gongboshi.com

工博士人工智能網(wǎng)
商城
服務(wù)機(jī)器人
智能設(shè)備
協(xié)作機(jī)器人
智慧場(chǎng)景
AI資訊
人工智能
智能機(jī)器人
智慧城市
智慧農(nóng)業(yè)
視頻
工業(yè)機(jī)器人
教育機(jī)器人
清潔機(jī)器人
迎賓機(jī)器人
資料下載
服務(wù)機(jī)器人
工博士方案
品牌匯
引導(dǎo)接待機(jī)器人
配送機(jī)器人
酒店服務(wù)機(jī)器人
教育教學(xué)機(jī)器人
產(chǎn)品/服務(wù)
服務(wù)機(jī)器人
工業(yè)機(jī)器人
機(jī)器人零部件
智能解決方案
掃描二維碼關(guān)注微信
?掃碼反饋

掃一掃,反饋當(dāng)前頁(yè)面

咨詢(xún)反饋
掃碼關(guān)注

微信公眾號(hào)

返回頂部