天天看點

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

作者:将門創投

本文提出了一個目前資料量最大的、涵蓋面最廣、反應人類對生成圖像喜愛程度的資料集:HPD v2, 并基于該資料集,提出了目前泛化性最強的“人類喜好評估模型”:HPS v2。HPS v2可以類比為ChatGPT中的reward model,能夠用于圖像生成模型的對齊以及評估。

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

論文連結:

https://arxiv.org/pdf/2306.09341.pdf

代碼連結:

https://github.com/tgxs002/HPSv2

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

一、背景

文生圖模型的出現颠覆了人類的繪圖方式,隻需寥寥數字便可根據描述生成逼真的圖像。然而,不少工作已經證明現有的評價名額(例如FID、IS、CLIP Score等)無法有效預測人們對于生成圖像的喜好程度。

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

二、人類偏好資料集 HPD v2

為了解決這個問題,本文推出了一個名為HPD v2的全新資料集,它類似InstructGPT論文中的compaison data,包含了0.8M圖檔之間的comparison,反映了人們對不同圖像的喜愛程度,是目前同類型資料集中最大的一個。

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

如上圖所示,我們先對COCO Caption和DiffusionDB的文本進行清洗,去除繁雜的風格詞彙。再用Stable Diffusion、DALL-E等近十個文生圖模型(如下表所示),生成了超過43萬張圖檔。我們請标注員對這些圖檔按組進行排序,進而構成我們的資料集。下圖展示了我們的圖像來源分布。

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

三、人類偏好分數 HPS v2

通過對HPD v2資料集的訓練,我們訓練了一個模型來拟合人類對圖像的喜好:HPS v2。實驗結果顯示,HPS v2比以前的模型(包括 HPS v1、ImageReward 和 PickScore等)具有更好的泛化能力,并可作為文生圖模型更好的評估名額。

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

在下圖中,我們展示了由6個開源文生圖模型生成的圖像的HPS v2名額,可以看到,HPS v2與人類的主觀感受有良好的一緻性。

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

四、如何優化HPS v2?

本文提出兩個簡單的方案,可以提高生成圖像的分數,為後續研究工作抛磚引玉。一個是用參考圖像的特征提供更好的文生圖初始化噪聲。我們發現,在訓練Stable Diffusion時,模型并沒有見過純噪聲的輸入,但推理時模型的輸入卻是從純噪聲開始的,這與訓練階段不一緻。基于這一觀察,我們嘗試将參考圖像的特征與随機噪聲混合作為初始化噪聲。如下圖所示,我們的方法有效地提高了生成圖像的HPS v2,并提高了對于生成結果的控制力度。

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

第二個方案是如HPS v1中介紹的,在關鍵詞中給定一些有助于提高品質的标記。我們在此進行了量化的對比。如下表所示,這兩種方法均提升了生成圖像的HPS v2值,其中給定額外的标記能大幅提升生成品質。

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

五、總結

本文提出了目前資料量最大、覆寫模型最多的、反映人類對生成圖像喜愛度的資料集HPD v2,并基于該資料集提出了最具泛化性的人類喜好評估模型HPS v2和一套穩定、公正、易用的文生圖模型的評價基準。本工作為文本到圖像生成模型的品質評估提供了一種新的方法,為模型改進和進一步研究提供了有力支援。

來源:公衆号【商湯學術】

Illustration by IconScout Store from IconScout

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群(www.techbeat.net)。社群上線480+期talk視訊,2400+篇技術幹貨文章,方向覆寫CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章,并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向,對使用者啟發更大的文章,做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“将門創投”公衆号,背景回複“投稿”二字,獲得投稿說明。

>>> 添加小編微信!

關于我“門”▼

将門是一家以專注于數智核心科技領域的新型創投機構,也是北京市标杆型孵化器。公司緻力于通過連接配接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與産業更新。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

HPS v2:800K文生圖模型的人類偏好資料集以及評價名額

⤵一鍵送你進入TechBeat快樂星球

繼續閱讀