天天看點

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

作者:機器之心Pro

機器心髒報告

編輯:陳平

你在紙上寫一個字,AI可以一眼就能模仿你的筆迹,或者看起來牢不可破的筆迹。

Facebook釋出了一款名為TextStyleBrush的新圖像,可以複制和再現圖像中的文本樣式。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

使用這項技術,你隻需要輸入一個單詞作為"标準",人工智能可以一直模仿你的寫作風格,隻需按一下按鈕即可執行,并産生驚人的效果。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

此外,您可以使用它來替換來自不同場景(例如海報,垃圾桶,路标等)的文本。下圖左側是原始場景圖像,文字顯示在藍色矩形中,右側是替換為文本的圖像。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

從圖中可以看出,所有樣式的字型AI幾乎都可以保持狀态。在下圖中,每個圖像對在左側顯示輸入源樣式,在右側顯示新内容(字元串),左側和右側的字型看起來完全相同。與源圖像相比,輸出圖像在外觀上似乎有點模糊,但正如我們所看到的,在大多數情況下,該技術似乎運作良好。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

TextStyleBrush比其他手寫模仿AI更強大,文本樣式可以從更微妙的角度進行分析,允許從各種角度和上下文進行手寫模仿。

下圖顯示了用茶瓶(Tea)代替醬油瓶(Soya)的實作:

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

這種強大的模仿就是Facebook AI推出的"TextStyleBrush",它隻用一個字就完美地再現了筆迹。這種技術就像文字處理APP中的樣式畫筆工具一樣,将文本與樣式分開。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

論文位址: https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf?_nc_cat=108&ccb=1-3&_nc_sid=ae5e01&_nc_ohc=Jcq0m5jBvK8AX--fG2A&_nc_ht=scontent-sjc3-1.xx&oh=8b7e8221bba5aba6b6331c643764dec5&oe=60EF2B81

資料集位址:https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset

它具有以下特點:

隻需一個單詞即可複制照片中的文本樣式。使用 AI 模型,可以編輯和替換圖像中的文本。

與大多數AI系統不同,TextStyleBrush是第一個自我監督的AI模型,它用單個示例單詞替換手寫和圖像中的文本。

未來,它将釋放個性化資訊和字幕等領域的新潛力,例如增強現實(AR)中的逼真語言翻譯。

通過釋出研究的能力、方法和結果,研究人員希望促進對話和研究,以确定此類技術的潛在應用,例如深度度假文本攻擊,這是人工智能領域的一項重大挑戰。

由于TextStyleBrush也可用于建立誤導性圖像,Facebook的首席技術官在其個人社交網站上表示,它隻釋出論文和資料集,但不釋出代碼。就像我們的深度造假方法一樣,我們相信共享研究和資料集将有助于建立檢測系統并提前防止攻擊。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

TextStyleBrush可以學習文本樣式表征

人工智能的圖像生成一直在以驚人的速度發展,能夠再現曆史場景或将照片變成梵高的畫作。現在,Facebook AI已經建構了一個AI,可以取代場景和手寫文本樣式,隻需要一個單詞作為輸入。

雖然大多數人工智能系統可以完成定義明确的專業任務,但建構一個足夠靈活的人工智能系統,以了解現實世界場景中中國書籍和手寫的細微差别可能具有挑戰性。這意味着您需要了解各種各樣的文本樣式,不僅包括不同的字型和書寫樣式,還包括不同的轉換,例如旋轉,彎曲的文本和圖像噪聲。

Facebook AI提出了一個TextStyleBrush架構。建築以自我監督的方式進行訓練,沒有目标風格監督,隻有原始風格形象。架構會自動查找圖檔的真實樣式。在訓練中,它假設每個單詞框都有一個真實值(出現在框中的文本);

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

生成器體系結構基于 StyleGAN2 模型。但是,它有兩個重要的限制:

首先,StyleGAN2 是一個無條件模型,這意味着它通過對随機潛在向量進行采樣來生成圖像。但是,TextStyleBrush 必須生成指定文本的圖像。

其次,textStyleBrush 生成不受控制的文本圖像樣式。文本樣式涉及全局資訊(如調色闆和空間變換),以及比例資訊的精細組合(如單個手寫中的細微變化)。

研究人員使用内容和風格表征來調整生成器以解決這些限制。文本樣式的多尺度屬性通過提取特定于圖層的樣式資訊并将其注入生成器的每個圖層來處理。除了以所需樣式生成目标圖像外,生成器還會生成表示前景像素(文本區域)的軟蒙版圖像。通過這種方式,生成器可以控制文本的低分辨率和高分辨率細節,以比對所需的輸入樣式。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

該研究還引入了一項新的自我監控教育訓練指南,該指南使用字型分類器,文本閱讀器和對抗性辨別符來保留源樣式和目标内容。首先,研究人員評估了生成器通過使用預先訓練的字型分類網絡捕獲輸入文本樣式的能力。此外,他們使用預訓練的文本識别網絡來評估生成的圖像的内容,以反映生成器捕獲目标内容的效果。總之,這種方法可以有效地自我監測教育訓練。

實驗

表2提供了評估不同損耗函數、樣式特征擴充以及訓練TSB時掩模效應消融實驗的結果。實驗結果表明,TextStyleBrush生成的圖像在MSE(合成誤差)上顯著降低,PSNR(峰值信噪比)和SSIM(結構相似性)得到改善。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

表3是在三個資料集圖像上測量的文本識别精度。結果表明,TSB是最好的,IC13的精度為97.2%,IC15的精度為97.6%,TextVQA的精度為95.0%。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

表4提供了生成的手寫文本的定量比較,将TSB方法與Davis等人專門設計用于生成手寫文本的SotA方法進行了比較。FID 分數越低,建構品質越好。顯然,TSB方法比以前更好。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

TextStyleBrush證明,人工智能在文本上可以比以前更加靈活和準确,但該技術仍然存在許多問題,例如無法模仿金屬表面上的字元或彩色字元,Facebook希望這項研究能夠繼續擴充到翻譯,自主表達和Deepfake研究之間的障礙之外。

給一個詞就能模仿你的筆迹,Facebook這個AI強大到不敢開源代碼

失敗案例。

相關連結:

https://ai.facebook.com/blog/ai-can-now-emulate-text-style-in-images-in-one-shot-using-just-a-single-word