論文筆記：Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

2023-08-07 00:20:13

背景：

大多數圖像字幕模型不能主動根據使用者的意圖來生成不同的描述。

創新點：

我們提出了抽象場景圖(ASG)結構來表示細粒度級别的使用者意圖，并控制生成的描述對象和細節。

論文筆記：Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

在本工作中，我們提出了一種更細粒度的控制信号-抽象場景圖(ASG)，以表示可控圖像标題生成的不同意圖。如圖1所示，ASG為一個有向圖，由三種抽象節點組成，分别是對象、屬性和關系，而每個節點不需要具體的語義标簽。是以，這種圖形結構很容易手動或自動獲得，因為它不需要語義識别。更重要的是，ASG能夠反映使用者的意圖是描述什麼和如何較長的描述。

論文筆記：Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

整體分兩步：

Role-aware Graph Encoder和Language Decoder for Graphs整體來看，還是編碼解碼的思路。

Role-aware Graph Encoder主要由兩部分構成，一個是通過對結點進行映射獲得結點代表的intention資訊，另一個是使用圖卷積來捕獲多種不同的關系。這裡編碼器的最終輸出還是一個編碼好的全局的編碼向量。

Language Decoder for Graphs也包含兩個部分，一個用來在解碼過程中考慮圖的語義和結構資訊，另一個用來記錄那些結點被描述過。

解碼采用的兩層的LSTM第一層編碼出的向量，需要和圖節點映射做一個attention來獲得權重之後的語義資訊。

論文筆記：Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

論文筆記：Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

背景：

創新點：

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普