去年剛剛接觸跨模态檢索,因為是首屆去做這個方向的,是以沒有任何師兄師姐可以指導,也沒有相應的資源。
曾經因為資料集的問題頭疼過一段時間,現在整理一下,做個記錄。
整理時間:2021-12-19
1.Pascal Sentence:
1000張圖檔,20個類别,每張圖檔五個描述的句子。
官網:http://vision.cs.uiuc.edu/pascal-sentences/
2.Wikipedia:
官網:http://www.svcl.ucsd.edu/projects/crossmodal/
2866個圖檔文本對
a.原始資料:圖檔為jpg,文本為XML檔案,共計1.4G。(官網提供,自行下載下傳)
b.手工提取特征:128維SIFT圖檔特征,10維LDA文本特征。(官網提供,自行下載下傳)
3.MIRFLICKR:
官網位址404。比較完整的資料集以及制作政策詳見:https://blog.csdn.net/HackerTom/article/details/98477506。
4.Nuswide:
共計269,648張圖檔和相應文本;一般分為Nus-wide-10k(挑選十個類别,1w張圖像文本對)、Nus-wide-21k兩種。
官網:https://lms.comp.nus.edu.sg/wp-content/uploads/2019/research/nuswide/NUS-WIDE.html
a.原始資料:官網提供部分,圖檔部分無法下載下傳,我從以下部落格找到相應的rgb圖像包,結合官網檔案使用。可按照(https://blog.csdn.net/weixin_44012382/article/details/120729911)來制作相應資料集。
因為原始提供者在谷歌雲釋出,國内不友善下載下傳,這裡提供備份。
連結:https://pan.baidu.com/s/1Zktv9mOEaI2h29IKLoSh4w
提取碼:f76a
b.手工特征:SIFT圖檔特征,LDA文本特征。(官網提供)
5.XMediaNet:
網站:http://59.108.48.34/tiki/XMediaNet/
說明:北大實驗室的資料,應該是需要教職工申請,我沒申請。
6.IAPR TC-12
暫時沒有用到,待更新。
7.MS-COCO
暫時沒有用到,待更新。