項目
内容
這個作業屬于哪個課程
2021春季軟體工程(羅傑 任健)
這個作業的要求在哪裡
團隊項目-初次邂逅,需求分析
觀隅 資料集管理與可視化平台(取“觀一隅而知全局”之意),一款資料集管理與可視化軟體,可以對常見深度學習資料集進行篩選、可視化以及結構解析。可以友善深度學習新手快速入門,也可以通過對資料集内容的直覺展示輔助模型的設計與優化。
深度學習近年來被大量應用。目前網上有各種領域各種各樣的資料集,資料集的格式具有多樣性,不友善使用者直接檢視
初次接觸某領域的深度學習任務時,使用者需要通過觀察資料集來了解任務的輸入輸出,進而對任務建立起直覺的了解
對資料集的可視化可以加速使用者後續的模型開發過程,觀察模型在資料集上表現不好的部分,可以相應地改進自己的設計,加速開發程序
常見深度學習資料集的可視化
對于簡單的帶标簽的分類資料,展示資料(不同形式)以及資料對應的标簽
對于圖像分割、物體識别等資料,用顔色覆寫層标注圖像的分割結果和物體位置,同時标注物體内容
對于視訊資料,動态用顔色覆寫層等方式标志出目标
對于音頻資料,在時間軸上展示資料中被标記的區域
對于文本資料,用不同顔色分割不同的被标記成份
資料集檔案結構的可視化解析
解析檔案的結構
對于某些沒有DataLoader的資料集,提供示例代碼生成
資料集内容的篩選和搜尋
使用者可以選出自己感興趣的目标标簽并檢視結果,例如從MNIST資料集中找出所有标注為1的圖像
在NLP相關的資料集裡,使用者可以查找相關的資料内容,例如從IMDB資料庫中找到存在某個詞的資料及其标注
資料集的篩選和搜尋
為了友善使用者直覺體驗一些基礎的公共資料集,在伺服器上搭建網站提供主流資料集的管理與可視化服務
考慮到資料隐私和網絡性能等原因,允許在使用者主機端運作Web伺服器提供管理(類似TensorBoard),使用者可在浏覽器中打開本機的資料集進行可視化和管理
使用者可以通過本平台對某個或某類資料集形成直覺認識
使用者可以通過本平台快速篩選出某領域的資料集
使用者可以通過本平台對某個資料集中的資料進行快速篩選,并以可視化的方式對這部分資料的特征進行了解
使用者可以将服務部署在本地,對于本地的涉密資料集也可以可視化
(該部分最近更新于2021/4/18)
對于現有的資料集的具體結構展示和可視化方式,其主要來源僅有以下兩點:
資料集釋出者提供的說明文檔,抑或是資料集内容示例。
各類部落格作者開源的可視化代碼或針對資料集的解釋。
以最常見的<code>MNIST</code>資料集為例,對應于上述的第一個來源,其官方網站中給出了對資料集格式的介紹如下:
這樣的内容雖然權威且準确,但一個重要問題是其描述形式過于複雜而缺乏直覺性,很難讓初次接觸機器學習的小白使用者一眼看懂這個資料集的内容是什麼樣的。此外,國内較難通路該網站,也會造成一定的困擾。
而對應于上述的第二個來源,搜尋<code>MNIST</code>關鍵詞找到的某篇部落格中給出了部落客自行實作的可視化代碼和相關結果如下:

這樣的内容雖然能夠滿足小白使用者直覺看到資料集的需求,但是由于國内部落格環境魚龍混雜,其時效性和權威性都堪憂。此外,部落客往往僅給出幾個小的樣例展示,使用者若需要檢視其它可視化結果,則需要自行修改所給出的代碼,可能會存在一定的困難。
除開上述不便之外,以上二者都僅是靜态展示,而不支援使用者以較便捷的方式篩選檢視資料集的指定部分内容,功能上較為簡單。并且,以上内容都比較零散,在不同資料集間的可遷移性極差,使用者若想直覺觀察其他資料集,往往要費時費力重新搜尋尋找其他資料集的以上内容,效果上不盡如人意。
以上,我們可以說,目前尚沒有功能完整的同時支援大量資料集的競品。
是以,我們的産品既具備資料篩選搜尋等可互動功能,又能夠同時支援多種資料格式的不同資料集,差異化較為明顯。至于對目标使用者的具體好處,請參見功能規格說明書的典型使用者和典型場景部分。
本産品目标使用者為初步接觸深度學習的高校學生、接觸深度學習新領域的高校研究所學生和科技公司研究員、希望可視化展示資料集以進行課堂教學的老師等。我們希望通過微信朋友圈,QQ空間等個人管道推廣的方式,以及在方法論等引導學生入門深度學習的課程群進行推廣的方式,從北航的參加馮如杯、選修方法論的同學切入,逐漸拓展到研究所學生、導師等人群。
本産品将具備兩種部署方式。其一,我們将部署一個隻讀的針對常見資料集的展示網站,使用者可以檢視已有資料集的可視化結果和篩選結果。其二,使用者可以在自己的伺服器或PC上自行部署完整軟體,進而支援新資料集的上傳功能。目前暫定釋出在GitHub和Pypi上,團隊現暫不了解Pypi的釋出要求和相關工具鍊的使用,但已在做相關調研。
關于使用者上傳資料集格式上的可拓展性,我們拟采用以下方式:
團隊設計的配置檔案預期支援基本的圖像,文本,視訊,音頻共4種資料格式,相容目前常見的一些資料集,并支援一定拓展性。配置檔案庫将獨立于代碼進行更新。
使用者上傳資料集的格式可以使用現有規範進行描述的,使用者可以釋出Issue,團隊根據資料集的活躍度決定是否增加其配置檔案,并加入配置檔案庫中,擇機更新。使用者也可以分享自己編寫的配置檔案,經團隊稽核後更新。
使用者上傳資料集的格式不能使用現有規範進行描述的,團隊将在保證向下相容的情況下,視情況更新規範以支援新的格式。
本産品\(\alpha\)階段預期隻具備可視化特定資料集類型的功能,\(\beta\)階段預期支援篩選、上傳等互動功能。由于本地部署軟體的使用者量和活躍度難以統計,是以我們主要對網站通路量和活躍度進行估計和統計。
我們定義一天内在網頁中停留超過10分鐘的使用者為該日活躍使用者,限于資料集可視化的閱聽人面較為狹窄,我們初步預估\(\alpha\)階段日活躍使用者為20人,\(\beta\)階段日活躍使用者為40人。
https://bhpan.buaa.edu.cn:443/link/09297EE2B35E9C79F8F5C7197069DF62