寫在前面:
基于一般視覺效果的解讀,我一直認為計算機對視圖的解讀是以像素為機關,幀度來微分解剖這個實體世界為像素世界,AI的應用是讓計算機可以以人類的思維角度去解讀世界,智能識别我想要的部分,并将其處理成我想要的效果。
視覺次元問題:
對智語言學習的正确性,可讀性,健壯性,高效性。視覺AI對自身次元提出了5個的要求,可看(圖檔識别為人類可讀),合理(正确的效果),多樣(我了解為可以多形式使用,好比java的類繼承),可控(可以改,健壯性),可用(可商業化,價值展現)
視覺AI的難點
在于分割摳圖,由于資料自身樣本容量要求大,标注成本過高,導緻其開發成本高昂,進而對其商業化需求有高标準。
解題思路
1.複雜問題拆解:粗mask估計+精準matting
2.豐富的資料樣本:設計圖象mask統一