亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現在的位置是:首頁 > 技術閱讀 >  人工智能從面部照片到漫畫的幾何轉換不成對的照片到漫畫翻譯

人工智能從面部照片到漫畫的幾何轉換不成對的照片到漫畫翻譯

時間:2024-01-10

摘要:面部漫畫是一種藝術形式的繪畫面孔,以夸張的方式傳達幽默或諷刺。在本文中,我們提出了第一個用于不成對的照片到漫畫翻譯的生成網絡(GAN),我們將其稱為“CariGAN”。它使用兩個組件明確地模擬幾何夸張和外觀風格:CariGeoGAN,僅模擬從面部照片到漫畫的幾何到幾何的轉換,以及CariStyGAN,它將樣式外觀從漫畫轉移到面部照片而沒有任何幾何變形。這樣,一個困難的跨域翻譯問題被分解為兩個更容易的任務。經過研究表明,與最先進的方法相比,我們的CariGAN產生的漫畫更接近手繪的漫畫,同時更好地保持了身份。此外,我們的CariGAN允許用戶控制形狀夸張度并通過調整參數或給出示例漫畫來改變顏色/紋理樣式。

簡介

漫畫可以被定義為通過素描,鉛筆筆劃或其他藝術繪畫以簡化或夸大的方式繪制人物(通常是面部)的藝術形式。作為傳達幽默或諷刺的一種方式,漫畫通常用于娛樂,作為禮品或紀念品,通常由街頭小販提供。藝術家具有從其他人那里捕獲主題的獨特面部特征的驚人能力,然后夸大這些特征。

已經有一些互動合成面部漫畫的嘗試[Akleman 1997; Akleman等。 2000;陳等人。2002; Gooch等人。 2004],但它需要專業技能才能產生富有表現力的結果。提出了一些自動系統,它們依賴于手工制作的規則[Brennan 2007; Koshimizu等。 1999;梁等人。2002;莫等人。 2004],通常來自藝術家的繪畫程序。然而,這些方法僅限于特定的藝術風格,例如草圖或某種卡通,以及預先設定的夸張模板。

近年來,深度學習作為從例子中學習的代表性技術(特別是來自大數據),已經成功地用于圖像到圖像的翻譯[Hinton and Salakhutdinov 2006;黃等人。 2018; Isola等。 2017年; Kim等人。 2017年;劉等人。 2017年; Yi等人。 2017年;朱等人。 2017b。眾所周知,世界上大多數照片和漫畫的例子都是不成對的。因此,以自動編碼器[Hinton和Salakhutdinov 2006],Pix2Pix [Isola等人]的監督方式進行翻譯可能是不可行的。2017],和其他配對的圖像翻譯網絡。建立具有數千個圖像對的這樣的數據集(即,由藝術家繪制的面部照片及其相關漫畫)將太昂貴且乏味。

另一方面,產生漫畫有兩個關鍵:形狀夸張和外觀風格化,如圖1(a)(b)所示。神經風格轉移方法[Gatys等。 2015年;約翰遜等人。 2016年廖等人。 2017],通過深度神經網絡將藝術風格從給定參考轉移到照片,擅長造型外觀,但不夸大幾何形狀,如圖1(c)所示。有一些作品[黃等人。 2018;劉等人。 2017年;朱等人。 2017a,b]提出了無監督的跨域圖像轉換,其原則上將同時學習幾何變形和外觀轉換。然而,照片和漫畫之間的形狀和外觀的巨大差距對這些網絡提出了巨大的挑戰,因此它們產生令人不愉快的結果,如圖1(d)所示。

為了產生接近漫畫藝術家作品的合理結果,人們不得不問“漫畫世代的期望質量是什么?”。形狀夸張不是扭曲,完全否定真相[Redman 1984]。夸張的形狀應該保持面部構件的相對幾何位置,并且只強調主體的特征,與其他部分不同。最終的外觀應該忠實于漫畫的視覺風格,并保持與輸入面的一致性,如其他面部生成器所述。 [Brennan 2007; Liang et al.2002; Mo et al.2004]。此外,生成必須是多樣的和可控的。給定一個輸入面部照片,它允許生成不同類型的漫畫,甚至控制結果通過漫畫,或通過用戶互動(例如,調整夸張的形狀)。它可以是現有的互動漫畫系統的有用和補充。

在本文中,我們提出了第一個用于不成對的照片到漫畫翻譯的生成對抗網絡(GAN),我們稱之為“CariGANs”。它使用兩個組件明確地模擬幾何夸張和外觀風格:CariGeoGAN,它只模擬從面部照片到漫畫的幾何到幾何的轉換,以及CariStyGAN,它將風格從漫畫轉移到面部照片而沒有任何幾何變形。兩個GAN分別訓練每個任務,這使得學習更加健壯。CariGeoGAN和CariStyGAN之間的不成對圖像對之間的關系使用循環一致性網絡結構,這種結構廣泛用于跨域或無監督的圖像轉換[Huang et al.1188; Zhu et al。2017b]。最后,夸張的形狀(從CariGeoGAN獲得)通過圖像變形夸大程式化的臉(從CariStyGAN獲得)。

在CariGeoGAN中,我們使用面部地標的PCA表示而不是地標本身作為GAN的輸入和輸出。該表示隱含地強制執行網絡中的面部形狀約束。此外,我們考慮CariGeoGAN中的一個新的特征性損失,以鼓勵夸大不同的面部特征,并避免任意扭曲。我們的CariGeoGAN輸出地標位置而不是圖像,所以在圖像變形之前可以調整夸張度。 它使結果可控并且幾何形狀多樣。

至于款式,我們的CariStyGAN設計用于像素到像素的樣式傳輸,沒有任何幾何變形。為了在訓練CariStyGAN中排除幾何干擾,我們通過從CariGeoGAN派生的反向幾何映射將所有原始漫畫與照片形狀相翹,創建一個中間漫畫數據集。通過這種方式,CariGeoGAN實現的幾何到幾何平移與CariStyGAN實現的外觀到外觀的轉換成功脫鉤。此外,我們的CariStyGAN允許多模態圖像轉換,通過改變輸入噪聲來遍歷漫畫風格空間。它還支持示例引導的圖像轉換,其中轉換輸出的樣式由用戶提供的示例漫畫控制。為了進一步保持外觀造型的同一性,我們增加了感知損失[Johnson et al。 2016年]進入CariStyGAN。它約束了程式化結果以保留輸入的內容信息。

通過我們的CariGAN,可以將野外人臉照片自動翻譯成具有幾何夸張和外觀風格的漫畫,如圖1(f)所示。我們已經將我們的方法與最先進的方法進行了廣泛的比較。感知研究結果顯示,與最先進的技術相比,我們的CariGAN產生的漫畫更接近手繪漫畫,同時更好地保持了身份。我們進一步擴展了新應用的方法,包括生成視頻漫畫,以及將漫畫轉換為真人照片。

總之,我們的主要貢獻是:

(1)我們提出了第一個深層神經網絡,用于不成對的照片到漫畫的翻譯。它通過使用兩個單獨的GAN明確地建模幾何和外觀的平移來實現幾何夸大和外觀風格化。

(2)我們提出了幾何夸張的CariGeoGAN,這是第一次嘗試使用循環一致性GAN進行幾何中的跨域平移。為了限制形狀的擴展,我們采用了兩個主要的新穎擴展,如地標的PCA表示和特征損失。

(3)我們為外觀風格呈現CariStyGAN,它允許多模態圖像翻譯,同時通過添加感知損失來保留生成的漫畫中的身份。

(4)我們的CariGAN允許用戶通過簡單地調整參數或給出示例漫畫來控制幾何和外觀風格的夸張度。

相關工作

最近的文獻提出了解決照片到漫畫轉移任務的兩個主要方向:傳統的基于圖形的方法和最近基于深度學習的方法。基于圖形的方法。在計算機圖形學中,將照片翻譯成漫畫或卡通很有趣,并且已經研究了很長時間。這些技術可以分為三組。

該類別開發了變形系統,允許用戶以交互方式操縱照片[Akleman 1997; Akleman等。2000;陳等人。 2002; Gooch等人。 2004年]。這些方法通常需要專業知識和經驗豐富的藝術家的詳細參與。

第二類定義了手工藝規則,以自動區分與均值(EDFM)的差異。 Brennan [Brennan 2007]是第一個提出EDFM理念的人。以下作品[Koshimizu et al。 1999; Le等人。2011;廖和李2004;劉等人。 2006;莫等人2004; Tseng and Lien 2007]改進了EDFM的規則,以更好地代表面部特征的獨特性。除了2D夸張之外,還有一些工作利用基于張量的3D模型來夸大面部特征[Yang et al。2012]。然而,關于EDFM的有效性存在一個核心問題:這些手工制定的規則是否忠實地反映了漫畫家的繪畫風格。

第三類方法直接從漫畫家繪制的成對照片漫畫圖像中學習規則。例如,Liang等人[Liang et al。 2002]通過使用偏最小二乘法(PLS)分析圖像漫畫對之間的相關性來提出學習原型。 Shet等人。 [Shet等人。 2005]訓練級聯相關神經網絡(CCNN)網絡以捕獲與面部組件相關的繪制風格。然而,在實踐中,難以獲得大的配對訓練集。從一次性或一些樣本中學習使得覆蓋現有漫畫的差異變得無效。

神經風格轉移。最近,受到CNN力量的啟發,Gatys等人的開創性工作。 [加蒂等人。2015]提供了一種將給定藝術作品的風格自動轉移到任何圖像的通用解決方案。為了提高質量,已經提出了許多后續工作[Liao et al。 2017年; Szirányi和Zerubia 1997],速度[Chen et al。 2017b;約翰遜等人。 2016],或視頻擴展[Chen et al。 2017A。盡管他們成功地將照片或視頻轉換成鉛筆,水彩,油畫等許多藝術風格,但由于這些方法在保留圖像內容的同時傳遞特定風格的紋理和顏色,因此無法生成具有幾何夸張的漫畫。

圖像到圖像的翻譯網絡。基于GAN提出的一系列工作用于一般的圖像到圖像轉換。 Isola等。 [Isola等。 2017]開發pix2pix網絡,通過監控圖像對進行訓練,并在許多翻譯任務上實現合理的結果,如照片到標簽,照片到草圖和照片到地圖。 BicycleGAN [Zhu et al。2017b]將其擴展到多模式翻譯。一些網絡包括CycleGAN [Zhu et al。 2017a],DualGAN [Yi et al。 2017],Disco-GAN [Kim et al。 2017],UNIT [Liu et al。2017],DTN [Taigman等。對于不成對的一對一翻譯,已提出2016年等,而MNUIT [Huang et al。 2018]被提議用于不成對的多對多翻譯。這些網絡通常在不成對的翻譯任務上取得成功,這些翻譯任務僅限于顏色或紋理變化,例如,從馬到斑馬,從夏到冬。對于照片到漫畫的翻譯,他們無法對幾何和外觀變化進行建模。相比之下,我們通過兩個分離的GAN明確地對兩個平移進行建模:一個用于幾何到幾何的映射,另一個用于從外觀到外觀的轉換。兩個GAN分別采用循環一致的網絡結構(例如,Cy-cleGAN [Zhu等人2017a],MNUIT [Huang等人2018]),因為每種類型的翻譯仍然建立在未配對的訓練圖像上。

METHOD

對于漫畫生成,基于從示例學習的先前方法依賴于成對的照片到漫畫圖像。藝術家需要為每張照片繪制相應的漫畫。因此,由于金錢和時間的高成本,為監督學習構建這樣的配對圖像數據集是不可行的。實際上,在因特網上發現了大量的漫畫圖像,例如Pinterest.com。如何從不成對的照片和漫畫中學習照片到漫畫的翻譯是我們的目標。同時,生成的漫畫應該保留面部照片的身份。設X和Y分別為面部照片域和漫畫域,兩個域之間不存在配對。對于照片域X,我們從CelebA數據庫中隨機抽取10,000張臉部圖像[Liu et al。 2015] xi i = 1,...,N,xi X,涵蓋不同的性別,種族,年齡,表情,姿勢等。為了獲得漫畫領域Y,我們從中收集了8,451個手繪的諷刺漫畫。互聯網具有不同的繪畫風格(例如,卡通,鉛筆畫)和各種夸張的面部特征,yi i = 1,...,M,yi Y.我們想要學習映射Φ:X Y,它可以將輸入x X轉移到樣本y =Φx,y Y.這是跨域圖像轉換的典型問題,因為照片域和漫畫域在幾何形狀和紋理外觀上可能明顯不同。我們無法通過其他現有的圖像到圖像的翻譯網絡直接學習從X到Y的映射。相反,我們將Φ解耦為兩個映射Φдeo和Φapp分別為幾何和外觀。

CONCLUSIONS

我們為不成對的照片到漫畫翻譯提出了第一種深度學習方法。我們的方法通過分別用兩個GAN學習幾何夸張和外觀風格來再現漫畫藝術。我們的方法在視覺質量和保持身份方面略微提高了現有方法。它更好地模擬了一些手繪漫畫程度。此外,我們的方法支持用戶靈活控制,以改變形狀夸張和外觀風格的結果。我們的方法仍然受到一些限制。首先,我們在面部形狀中觀察到的幾何夸張比其他面部特征更明顯,并且不能覆蓋耳朵,毛發,皺紋等的一些小的幾何夸張。那是因為在臉部輪廓上總共有63個地標中有33個。這些地標的變體在PCA表示中占主導地位。可以通過添加更多地標來解決此限制。其次,最好讓我們的CariGeoGAN和我的CariStyGAN一樣多模態,但我們未能解開幾何中的內容和風格,因為它們的定義仍然不清楚。至于外觀樣式,我們的結果忠實于漫畫數據集中常見的參考樣式(例如,素描,卡通),但不太忠實于一些不常見的樣式(例如,油畫),如圖20所示。是因為我們的CariStyGAN無法通過有限的數據來學習正確的樣式解耦。最后,我們的CariStyGAN經過低分辨率(256 256)圖像的訓練和測試,我們考慮應用[Karras等人的漸進式增長思想。 2017]在我們的CariStyGAN中逐步添加高分辨率圖像的細節(例如,1080p HD)。這些很有趣,并將在未來的工作中進行探索。

原文標題:

CariGANs: Unpaired Photo-to-Caricature Translation

文章來源:人工智能安全機器人醫


IEEE Spectrum

《科技縱覽》

官方微信公眾平臺



往期推薦

專訪 | 科學家眼中人工智能的未來

融合利用存儲器和處理技術打造更快的人工智能

IBM的全新人工智能芯片:其芯片通過深度學習

的3種主要方式實現高精度學習和低精度推理

主站蜘蛛池模板: 安徽省| 宁阳县| 秦安县| 定西市| 大理市| 桦川县| 土默特右旗| 阳春市| 禹城市| 明水县| 无棣县| 榆树市| 门头沟区| 阿瓦提县| 彩票| 兴海县| 田林县| 阿拉尔市| 彩票| 南平市| 邵阳县| 会泽县| 宁城县| 遂平县| 大庆市| 久治县| 江华| 越西县| 仁怀市| 通海县| 洮南市| 新龙县| 重庆市| 边坝县| 安国市| 科技| 宜昌市| 乡城县| 舟山市| 平乐县| 开阳县|