明敏 發自 凹非寺
量子位 | 公衆号 QbitAI
以畫畫水準高超而風靡全球的DALL-E 2,國文水準被質疑了。
比如bat這個多義詞,就把它給考住了。
a bat is flying over a baseball stadium(一隻蝙蝠/球棍從棒球場上飛過)。
結果它畫出來的圖,蝙蝠和球拍都在天上飛。
而且這不是偶然的失誤,如果輸入“a person is hearing a bat”,畫出來的還是蝙蝠和球棒都存在。
換成另一種情況,輸入a fish and a gold ingot(一條魚和一個金錠)。
好嘛,直接把兩種東西都鑄金了,變成真金·魚。
可不能低估了這些失誤,因為它們意味着DALL-E 2在根據文本生成圖像的過程中,對語言中符号到實體的基本映射關系。
即一個詞對應一個實體。
以bat舉例,畫出蝙蝠或者球棍,都算DALL-E 2了解正确,但是如果兩個都給,那就有問題了。
這就好比本身是單選題,填A或B都對,可是把兩個都寫上就違反了規則。
更何況有時候它還把不同物體的修飾詞弄錯,“上一道題的解法用在下一道上”。
發現這一問題的,是來自巴伊蘭大學、艾倫人工研究智能所的學者們,并且專門寫了篇論文分析。
有趣的是,研究人員約阿夫·高柏(Yoav Goldberg)還提到,這種情況在mini DALL-E和Stable Diffusion中并不常見。
我猜這可能是因為所謂的逆規模現象(inverse scaling)。
簡單了解就是“模型越大性能越差”。
論文具體說了啥?
幾位學者在發現問題後,又反複進行了多次試驗,并把問題主要劃分為三種情況:
- 第一、一個單詞被解釋為兩個不同的事物
- 第二、一個單詞被解釋為兩個不同僚物的修飾詞
- 第三、一個單詞在被解釋為一個事物的同時,又被了解成另一種事物的修飾詞
前兩種情況開頭已經提過。
第三種情況舉例來說,輸入“一匹斑馬和一條街道”,輸出的結果中一直都有斑馬線。
在這裡,DALL-E 2把斑馬同時解釋了兩次。
在針對這些情況都重複試驗後,作者計算出DALL-E 2在三種情況下,出現失誤的機率都超過80%。
其中第二種情況的失誤率最高,達到97.2%。
第三種情況下,如果給另一個名詞前加上新的修飾詞,可以避免失誤發生。
即輸入一匹斑馬和一條碎石路,路面上就沒有斑馬線出現了。
而在用DALL-E mini和Stable Diffusion時,這些重複解釋的情況并不常見。
作者解釋,未來可以考慮研究模型的文本編解碼器來追溯這些問題,并且可以研究這些問題和模型大小、架構是否有關系。
作者之一Yoav Goldberg是巴伊蘭大學的傑出教授,也是艾倫人工智能研究院以色列分院的研究主任。
之前,他在紐約的谷歌研究中心做博士後。研究興趣方向為NLP和機器學習,尤其對文法解析感興趣。
還曾發現DALL-E 2自創語言
不過就在幾個月之前,一位計算機專業的博士小哥發現,給DALL-E 2喂一些奇怪的語言,它也能生成同一類的圖像。
而這些詞,正是來自DALL-E 2生成圖像中的。
比如輸入“兩個農民談論蔬菜,帶字幕(Two farmers talking about vegetables, with subtitles)”後,DALL-E 2給出的圖像中,出現了一些“亂碼”的詞彙。
而如果再把圖像中的新詞Vicootes”當作描述丢給模型,沒想到,出來這樣一堆圖像:
有蘿蔔、有南瓜、有小柿子……難道“Vicootes”就代表蔬菜?
如果再把上圖氣泡中一串“Apoploe vesrreaitais”扔給DALL-E 2,一堆鳥圖出現了:
“難道說,這個單詞代表‘鳥’,是以農民們似乎在談論影響他們蔬菜的鳥類?”
當時,這位博士小哥把自己的發現釋出在網絡上後,立刻引起熱議。
有人試圖分析DALL-E 2是如何加密語言的,還有人覺得這隻是噪聲。
不過總的來說,在語言了解方面,DALL-E 2總能搞出點讓人意想不到的事。
你覺得這背後原因到底是什麼呢?
論文位址:
https://arxiv.org/pdf/2210.10606.pdf
參考連結:
https://twitter.com/yoavgo/status/1583088957226881025
— 完 —
量子位 QbitAI · 頭條号簽約
關注我們,第一時間獲知前沿科技動态