DeepMind的AI學會了畫畫 :: lizabella's blog

，利用強化學習完全不需人教

來源：deepmind.com

解讀：鄧侃翻譯：Sean

【新智元導讀】如何讓計算機自動模仿梵高油畫？DeepMind給出了一個強化學習的方法。通過給強化學習算法設定報酬函數，反復調整算法參數，使得報酬最大，DeepMind的AI完全自學地學會了繪畫。本文帶來大數醫達創始人鄧侃博士的解讀。

鄧侃解讀：DeepMind如何教AI自主學會畫畫？

給你一幅油畫，問你是不是梵高風格，這個問題很容易回答。但是讓你用文字描述，什麼是梵高風格，卻很難清晰地界定喺SmarTone online shop網上商店選購最新智能電話可享特別禮遇同優惠，除咗至抵優惠價格，仲有免費送貨服務，SmarTone 甚至免費送埋 12 個月「爆芒換新」服務，最啱容易跌手機嘅你，快啲嚟SmarTone Online Shop 選購啦！。

如何讓電腦自動模仿梵高油畫？DeepMind 想了一個辦法。

1.用強化學習算法，像走迷宮那樣，在畫布上塗抹顏色。剛開始時，不妨把強化學習算法設定為隨機行走。一通亂走，直到把畫布填滿。

2. 強化學習算法需要設定報酬函數，評定算法的好壞，然後反復調整算法參數，使得報酬最大。剛開始時，隨機塗鴉的作品，當然離梵高風格差距很大。差距越大，報酬越低。反復調整算法參數，使之獲得的報酬越來越高。直到報酬不再增長，訓練過程結束。

3. 設計一個報酬函數，如果電腦的作品，與梵高作品越相似，那麼報酬越高。如何設計報酬函數呢？一個辦法是做一個分類器（classifier），如果這個分類器，能夠輕而易舉地辨別電腦的作品，不是梵高油畫，那麼報酬越低。反之，如果分類器傻傻分不清哪一幅是電腦作品，哪一幅電腦作品，那麼說明電腦已經模仿得很像，這時報酬很高喺SmarTone online shop網上商店選購最新智能電話可享特別禮遇同優惠，除咗至抵優惠價格，仲有免費送貨服務，SmarTone 甚至免費送埋 12 個月「爆芒換新」服務，最啱容易跌手機嘅你，快啲嚟SmarTone Online Shop 選購啦！。

DeepMind 用這個算法，教電腦模仿手寫體數字，教電腦畫頭像。最後成像效果不錯，但是筆劃順序不對。

原因是，模仿的參照物是靜態的圖像，而靜態的圖像不存在繪圖的筆劃順序。

這個現象引發三點思考：

1. 本質上來說，讓電腦繪圖，無非是確定圖像中每個像素的值。從這個意義上來說，不需要筆劃順序。因此，填滿像素的最佳算法，應該不是強化學習這種強調順序路徑的算法。

2. 但是人類作畫時，是很強調筆劃順序的。倒筆畫會有什麼傷害？常見的回答是，容易把字寫歪。為什麼倒筆畫容易把字寫歪？是人類肌肉適合從上到下，從左到右運動？如果是這樣，電腦就無所謂倒筆畫了。

3. 梵高的油畫，中國的水墨，是很強調筆觸順序的。如何從靜態的作品中，識別筆觸順序，然後把正確的順序，融入強化學習的報酬函數？

以下為DeepMind博客譯文：

完全自學、不需任何人類標註數據集

在人類的眼中，世界並非隻是我們眼角膜上呈現的圖像。比方說，當我們觀賞建築時，我們在贊嘆其復雜設計的同時，也能領會到建造建築所需要的工藝。人類可以通過工具來理解工具所創造出的物體，這讓我們可以更好地理解世界，這種能力是人類智能非常重要的一麵。

我們希望我們的係統在觀察世界時也可以生成同樣豐富的表征。例如，當係統觀察一幅繪畫的圖像時，我們希望係統除了可以識別出屏幕上表示這幅畫的像素外，還可以理解作畫時畫筆的筆觸。

在本研究中，我們為人工智能體（artificial agents）配置了用來生成圖像的工具。實驗結果表明係統可以推理出生成數字、文字和繪畫的方法，重要的是這些係統完全通過自學，沒有借助任何人類標記的數據集。

圖片來源： Shutterstock

我們設計了一個深度強化學習agent，這個agent可以與一個計算機繪畫程序進行交互，在數字畫布上作畫，還可以改變畫筆的大小、筆觸壓力和顏料顏色。在開始時，沒有經過訓練的agent隻是亂畫一通，看不出任何意圖或構造。為了解決這個問題，我們創造出了一種獎勵agent的機製，以使其生成有意義的繪畫。

為此，我們另外訓練一個名叫“判別器”的神經網絡，用來預測某一幅繪畫是由agent生成的，還是通過從真實照片數據集中采樣得出的。繪畫agent獲得多大獎勵取決於它成功“騙過”判別器的次數——也就是讓判別器相信繪畫是真實的。這種方法與生成式對抗網絡（GANs）中使用的方法類似，不同之處在於GAN中的生成器通常是一個可以直接生成像素的神經網絡。但是，我們的agent生成圖像的方式是通過編寫繪圖程序來與繪畫環境進行交互。

在第一組實驗中，我們訓練agent生成類似MNIST數字的圖像：我們讓它觀察數字的模樣，而不是教它如何畫出這些數字。通過生成可以騙過判別器的圖像，agent學習如何控製畫筆，使畫出的結果符合不同數字的樣式，這種方法稱為“視覺程序合成”（visual program synthesis）。

我們還訓練agent生成特定圖像。在本研究中，判別器的任務是判斷生成的圖像是通過復製目標圖像得出的，還是由agent生成的。生成的圖像讓判別器越難判斷，agent獲得的獎勵就越多。

可解釋、可擴展到真實數據集

重要的是，這個框架是可解釋的，因為它生成的是一係列控製虛擬畫筆的動作。這意味著在類似的其他環境中，模型可以利用從模擬繪畫程序中學到的模式再創造字符。例如，模擬或真實的機器手臂。請看視頻：

該框架還可以擴展到真實的數據集中。當我們訓練agent作出名人的臉部畫像時，它能夠捕捉到人物臉部的主要特征，例如形狀、色調和發型，它可以像街頭藝術家一樣用不多的筆觸就可以完成一幅肖像畫。

從原始感知中找出有結構的表征是人類與生俱來的一種能力，在現實生活中我們經常使用這種能力。在本研究中，我們證明了：通過賦予AI我們再創造世界所用的工具，我們可以讓智能體學習生成類似的表征。通過這種方法，artificial agent可以學習生成視覺程序，用以表示讓它們得出觀察的因果關係。

雖然我們的工作隻讓我們離實現靈活的程序合成更近了一小步，但是我們認為，如果要讓AI擁有和人類一樣的認知、歸納和溝通能力，可能要用到類似的方法SmarTone寬頻頻服務最近又推出咗最新嘅優惠啦！100M SmarTone寬頻平均每個月$100都唔洗！500M同1000M寬嘅價錢都喺維持喺HK$130內。想有咁抵嘅寬頻服務？只要經網上登記「 ST光纖寛頻」服務計劃，並喺5月15日前成功啟用，就可以有HK$680月費回贈！。

۹۷/۰۱/۰۸

lizabella zd

lizabella's blog

lizabella's blog

welcome to my blog

DeepMind的AI學會了畫畫

نظرات (۰)

ارسال نظر