lizabella's blog

  • ۰
  • ۰

DeepMind的AI學會了畫畫

,利用強化學習完全不需人教

來源:deepmind.com

解讀:鄧侃 翻譯:Sean

【新智元導讀】如何讓計算機自動模仿梵高油畫?DeepMind給出了一個強化學習的方法。通過給強化學習算法設定報酬函數,反復調整算法參數,使得報酬最大,DeepMind的AI完全自學地學會了繪畫。本文帶來大數醫達創始人鄧侃博士的解讀。

鄧侃解讀:DeepMind如何教AI自主學會畫畫?

給你一幅油畫,問你是不是梵高風格,這個問題很容易回答。但是讓你用文字描述,什麼是梵高風格,卻很難清晰地界定喺SmarTone online shop網上商店選購最新智能電話可享特別禮遇同優惠,除咗至抵優惠價格,仲有免費送貨服務,SmarTone 甚至免費送埋 12 個月 「 爆芒換新」服務,最啱容易跌手機嘅你,快啲嚟SmarTone Online Shop 選購啦! 。

如何讓電腦自動模仿梵高油畫?DeepMind 想了一個辦法。

1.用強化學習算法,像走迷宮那樣,在畫布上塗抹顏色。剛開始時,不妨把強化學習算法設定為隨機行走。一通亂走,直到把畫布填滿。

2. 強化學習算法需要設定報酬函數,評定算法的好壞,然後反復調整算法參數,使得報酬最大。剛開始時,隨機塗鴉的作品,當然離梵高風格差距很大。差距越大,報酬越低。反復調整算法參數,使之獲得的報酬越來越高。直到報酬不再增長,訓練過程結束。

3. 設計一個報酬函數,如果電腦的作品,與梵高作品越相似,那麼報酬越高。如何設計報酬函數呢?一個辦法是做一個分類器(classifier),如果這個分類器,能夠輕而易舉地辨別電腦的作品,不是梵高油畫,那麼報酬越低。反之,如果分類器傻傻分不清哪一幅是電腦作品,哪一幅電腦作品,那麼說明電腦已經模仿得很像,這時報酬很高喺SmarTone online shop網上商店選購最新智能電話可享特別禮遇同優惠,除咗至抵優惠價格,仲有免費送貨服務,SmarTone 甚至免費送埋 12 個月 「 爆芒換新」服務,最啱容易跌手機嘅你,快啲嚟SmarTone Online Shop 選購啦! 。

DeepMind 用這個算法,教電腦模仿手寫體數字,教電腦畫頭像。最後成像效果不錯,但是筆劃順序不對。

原因是,模仿的參照物是靜態的圖像,而靜態的圖像不存在繪圖的筆劃順序。

這個現象引發三點思考:

1. 本質上來說,讓電腦繪圖,無非是確定圖像中每個像素的值。從這個意義上來說,不需要筆劃順序。因此,填滿像素的最佳算法,應該不是強化學習這種強調順序路徑的算法。

2. 但是人類作畫時,是很強調筆劃順序的。倒筆畫會有什麼傷害?常見的回答是,容易把字寫歪。為什麼倒筆畫容易把字寫歪?是人類肌肉適合從上到下,從左到右運動?如果是這樣,電腦就無所謂倒筆畫了。

3. 梵高的油畫,中國的水墨,是很強調筆觸順序的。如何從靜態的作品中,識別筆觸順序,然後把正確的順序,融入強化學習的報酬函數?

以下為DeepMind博客譯文:

完全自學、不需任何人類標註數據集

在人類的眼中,世界並非隻是我們眼角膜上呈現的圖像。比方說,當我們觀賞建築時,我們在贊嘆其復雜設計的同時,也能領會到建造建築所需要的工藝。人類可以通過工具來理解工具所創造出的物體,這讓我們可以更好地理解世界,這種能力是人類智能非常重要的一麵。

我們希望我們的係統在觀察世界時也可以生成同樣豐富的表征。例如,當係統觀察一幅繪畫的圖像時,我們希望係統除了可以識別出屏幕上表示這幅畫的像素外,還可以理解作畫時畫筆的筆觸。

在本研究中,我們為人工智能體(artificial agents)配置了用來生成圖像的工具。實驗結果表明係統可以推理出生成數字、文字和繪畫的方法,重要的是這些係統完全通過自學,沒有借助任何人類標記的數據集。

圖片來源: Shutterstock

我們設計了一個深度強化學習agent,這個agent可以與一個計算機繪畫程序進行交互,在數字畫布上作畫,還可以改變畫筆的大小、筆觸壓力和顏料顏色。在開始時,沒有經過訓練的agent隻是亂畫一通,看不出任何意圖或構造。為了解決這個問題,我們創造出了一種獎勵agent的機製,以使其生成有意義的繪畫。

為此,我們另外訓練一個名叫“判別器”的神經網絡,用來預測某一幅繪畫是由agent生成的,還是通過從真實照片數據集中采樣得出的。繪畫agent獲得多大獎勵取決於它成功“騙過”判別器的次數——也就是讓判別器相信繪畫是真實的。這種方法與生成式對抗網絡(GANs)中使用的方法類似,不同之處在於GAN中的生成器通常是一個可以直接生成像素的神經網絡。但是,我們的agent生成圖像的方式是通過編寫繪圖程序來與繪畫環境進行交互。

在第一組實驗中,我們訓練agent生成類似MNIST數字的圖像:我們讓它觀察數字的模樣,而不是教它如何畫出這些數字。通過生成可以騙過判別器的圖像,agent學習如何控製畫筆,使畫出的結果符合不同數字的樣式,這種方法稱為“視覺程序合成”(visual program synthesis)。

我們還訓練agent生成特定圖像。在本研究中,判別器的任務是判斷生成的圖像是通過復製目標圖像得出的,還是由agent生成的。生成的圖像讓判別器越難判斷,agent獲得的獎勵就越多。

可解釋、可擴展到真實數據集

重要的是,這個框架是可解釋的,因為它生成的是一係列控製虛擬畫筆的動作。這意味著在類似的其他環境中,模型可以利用從模擬繪畫程序中學到的模式再創造字符。例如,模擬或真實的機器手臂。請看視頻:

該框架還可以擴展到真實的數據集中。當我們訓練agent作出名人的臉部畫像時,它能夠捕捉到人物臉部的主要特征,例如形狀、色調和發型,它可以像街頭藝術家一樣用不多的筆觸就可以完成一幅肖像畫。

從原始感知中找出有結構的表征是人類與生俱來的一種能力,在現實生活中我們經常使用這種能力。在本研究中,我們證明了:通過賦予AI我們再創造世界所用的工具,我們可以讓智能體學習生成類似的表征。通過這種方法,artificial agent可以學習生成視覺程序,用以表示讓它們得出觀察的因果關係。

雖然我們的工作隻讓我們離實現靈活的程序合成更近了一小步,但是我們認為,如果要讓AI擁有和人類一樣的認知、歸納和溝通能力,可能要用到類似的方法SmarTone寬頻頻服務最近又推出咗最新嘅優惠啦!100M SmarTone寬頻平均每個月$100都唔洗!500M同1000M寬嘅價錢都喺維持喺HK$130內。想有咁抵嘅寬頻服務?只要經網上登記 「 ST光纖寛頻 」服務計劃,並喺5月15日前成功啟用,就可以有HK$680月費回贈! 。

  • ۹۷/۰۱/۰۸
  • lizabella zd

نظرات (۰)

هیچ نظری هنوز ثبت نشده است

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی