來源:deepmind.com
解讀:鄧侃 翻譯:Sean
【新智元導讀】如何讓計算機自動模仿梵高油畫?DeepMind給出了一個強化學習的方法。通過給強化學習算法設定報酬函數,反復調整算法參數,使得報酬最大,DeepMind的AI完全自學地學會了繪畫。本文帶來大數醫達創始人鄧侃博士的解讀。
鄧侃解讀:DeepMind如何教AI自主學會畫畫?
給你一幅油畫,問你是不是梵高風格,這個問題很容易回答。但是讓你用文字描述,什麼是梵高風格,卻很難清晰地界定喺SmarTone online shop網上商店選購最新智能電話可享特別禮遇同優惠,除咗至抵優惠價格,仲有免費送貨服務,SmarTone 甚至免費送埋 12 個月 「 爆芒換新」服務,最啱容易跌手機嘅你,快啲嚟SmarTone Online Shop 選購啦! 。
如何讓電腦自動模仿梵高油畫?DeepMind 想了一個辦法。
1.用強化學習算法,像走迷宮那樣,在畫布上塗抹顏色。剛開始時,不妨把強化學習算法設定為隨機行走。一通亂走,直到把畫布填滿。
2. 強化學習算法需要設定報酬函數,評定算法的好壞,然後反復調整算法參數,使得報酬最大。剛開始時,隨機塗鴉的作品,當然離梵高風格差距很大。差距越大,報酬越低。反復調整算法參數,使之獲得的報酬越來越高。直到報酬不再增長,訓練過程結束。
3. 設計一個報酬函數,如果電腦的作品,與梵高作品越相似,那麼報酬越高。如何設計報酬函數呢?一個辦法是做一個分類器(classifier),如果這個分類器,能夠輕而易舉地辨別電腦的作品,不是梵高油畫,那麼報酬越低。反之,如果分類器傻傻分不清哪一幅是電腦作品,哪一幅電腦作品,那麼說明電腦已經模仿得很像,這時報酬很高喺SmarTone online shop網上商店選購最新智能電話可享特別禮遇同優惠,除咗至抵優惠價格,仲有免費送貨服務,SmarTone 甚至免費送埋 12 個月 「 爆芒換新」服務,最啱容易跌手機嘅你,快啲嚟SmarTone Online Shop 選購啦! 。
DeepMind 用這個算法,教電腦模仿手寫體數字,教電腦畫頭像。最後成像效果不錯,但是筆劃順序不對。
原因是,模仿的參照物是靜態的圖像,而靜態的圖像不存在繪圖的筆劃順序。
這個現象引發三點思考:
1. 本質上來說,讓電腦繪圖,無非是確定圖像中每個像素的值。從這個意義上來說,不需要筆劃順序。因此,填滿像素的最佳算法,應該不是強化學習這種強調順序路徑的算法。
2. 但是人類作畫時,是很強調筆劃順序的。倒筆畫會有什麼傷害?常見的回答是,容易把字寫歪。為什麼倒筆畫容易把字寫歪?是人類肌肉適合從上到下,從左到右運動?如果是這樣,電腦就無所謂倒筆畫了。
3. 梵高的油畫,中國的水墨,是很強調筆觸順序的。如何從靜態的作品中,識別筆觸順序,然後把正確的順序,融入強化學習的報酬函數?
以下為DeepMind博客譯文:
完全自學、不需任何人類標註數據集
在人類的眼中,世界並非隻是我們眼角膜上呈現的圖像。比方說,當我們觀賞建築時,我們在贊嘆其復雜設計的同時,也能領會到建造建築所需要的工藝。人類可以通過工具來理解工具所創造出的物體,這讓我們可以更好地理解世界,這種能力是人類智能非常重要的一麵。
我們希望我們的係統在觀察世界時也可以生成同樣豐富的表征。例如,當係統觀察一幅繪畫的圖像時,我們希望係統除了可以識別出屏幕上表示這幅畫的像素外,還可以理解作畫時畫筆的筆觸。
在本研究中,我們為人工智能體(artificial agents)配置了用來生成圖像的工具。實驗結果表明係統可以推理出生成數字、文字和繪畫的方法,重要的是這些係統完全通過自學,沒有借助任何人類標記的數據集。
圖片來源: Shutterstock
我們設計了一個深度強化學習agent,這個agent可以與一個計算機繪畫程序進行交互,在數字畫布上作畫,還可以改變畫筆的大小、筆觸壓力和顏料顏色。在開始時,沒有經過訓練的agent隻是亂畫一通,看不出任何意圖或構造。為了解決這個問題,我們創造出了一種獎勵agent的機製,以使其生成有意義的繪畫。
為此,我們另外訓練一個名叫“判別器”的神經網絡,用來預測某一幅繪畫是由agent生成的,還是通過從真實照片數據集中采樣得出的。繪畫agent獲得多大獎勵取決於它成功“騙過”判別器的次數——也就是讓判別器相信繪畫是真實的。這種方法與生成式對抗網絡(GANs)中使用的方法類似,不同之處在於GAN中的生成器通常是一個可以直接生成像素的神經網絡。但是,我們的agent生成圖像的方式是通過編寫繪圖程序來與繪畫環境進行交互。
在第一組實驗中,我們訓練agent生成類似MNIST數字的圖像:我們讓它觀察數字的模樣,而不是教它如何畫出這些數字。通過生成可以騙過判別器的圖像,agent學習如何控製畫筆,使畫出的結果符合不同數字的樣式,這種方法稱為“視覺程序合成”(visual program synthesis)。
我們還訓練agent生成特定圖像。在本研究中,判別器的任務是判斷生成的圖像是通過復製目標圖像得出的,還是由agent生成的。生成的圖像讓判別器越難判斷,agent獲得的獎勵就越多。
可解釋、可擴展到真實數據集
重要的是,這個框架是可解釋的,因為它生成的是一係列控製虛擬畫筆的動作。這意味著在類似的其他環境中,模型可以利用從模擬繪畫程序中學到的模式再創造字符。例如,模擬或真實的機器手臂。請看視頻:
該框架還可以擴展到真實的數據集中。當我們訓練agent作出名人的臉部畫像時,它能夠捕捉到人物臉部的主要特征,例如形狀、色調和發型,它可以像街頭藝術家一樣用不多的筆觸就可以完成一幅肖像畫。
從原始感知中找出有結構的表征是人類與生俱來的一種能力,在現實生活中我們經常使用這種能力。在本研究中,我們證明了:通過賦予AI我們再創造世界所用的工具,我們可以讓智能體學習生成類似的表征。通過這種方法,artificial agent可以學習生成視覺程序,用以表示讓它們得出觀察的因果關係。
雖然我們的工作隻讓我們離實現靈活的程序合成更近了一小步,但是我們認為,如果要讓AI擁有和人類一樣的認知、歸納和溝通能力,可能要用到類似的方法SmarTone寬頻頻服務最近又推出咗最新嘅優惠啦!100M SmarTone寬頻平均每個月$100都唔洗!500M同1000M寬嘅價錢都喺維持喺HK$130內。想有咁抵嘅寬頻服務?只要經網上登記 「 ST光纖寛頻 」服務計劃,並喺5月15日前成功啟用,就可以有HK$680月費回贈! 。
- ۹۷/۰۱/۰۸