博雯 發自 凹非寺
量子位 | 公衆号 QbitAI
為了搞清楚人類是怎麼看世界的,計算機開始學着“轉動眼球”了:
然後憑借轉動的眼球“搜集要觀測的資訊”,再聚焦在文字或者圖像上,開始“收集資料”:
不僅能正常讀書看畫,甚至能模拟人類在無聊、興奮、緊張等各種不同情緒下的瞳孔放縮、眨眼頻率的細微變化。
事實上,這是杜克大學的研究人員最新開發的一種“虛拟眼睛”,可以精确模拟人類觀測世界的方式。
這項研究目前已經開源,并即将發表于通信類頂會IPSN 2022上。
通過這項研究得到的幾近真實的資料,将全部反哺給計算機。
這些資料有什麼用?
這種基于眼球追蹤(Eye Tracking)技術得到的資料常常被稱為眼動資料,包括注視時長、眼跳、追随運動等多個屬性。
就如我們常常将眼睛成為心靈之窗一樣,這些眼動資料能反映不少人類的真實資訊。
比如,瞳孔的擴張、眼跳、遊移次數可以表現目前主人的情緒(無聊或興奮)、注意力是否集中、對某項任務是新手或娴熟、甚至是對某種特定語言的精通與否。
這項研究的作者之一Maria Gorlatova甚至表示:
(眼動資料)可能無意中暴露出性别和種族偏見、我們不想讓别人知道的興趣,甚至我們自己都不了解的資訊。
是以,對這些眼動資料的學習和研究,自然也就能産生一系列傳感應用:包括認知負荷估計、久坐活動識别、閱讀了解分析和情感識别。
很多企業和開發者,比如微軟的VIVE Pro Eye,已經開始采用眼球追蹤來實作基于目光的新的互動和環境感覺。
然而,在收集大規模的、有标簽的眼動資料時,難免會碰到幾個問題:
人類視覺行為的随機性增加了資料收集的成本與人類受試者合作過程中可能涉及隐私侵犯問題生産模型訓練所需的資料的時間成本過高(可能需要數以百計的人帶着裝置不間斷地用眼數小時才能産生)
虛拟眼睛收集資料
如何解決上面的問題呢?杜克大學的研究團隊提出了一套受心理學啟發的模型EyeSyn。
這一模型隻利用公開的圖像和視訊,就能合成任意規模大小的眼動資料集。
它的整體架構如下:
整體思路是以圖像和視訊作為輸入,并将其作為視覺刺激,以生成相應的眼動資料。
大的架構又由三個小模型組成:
ReadGaze模型
模拟文本閱讀中的視覺行為。
擁有一個基于文本識别的檢測子產品、一個模拟跳讀視覺行為的模拟器。
VerbalGaze模型
模拟在口頭交流中固定在面部某個區域、以及在面部不同區域之間切換注意力的視覺行為。
擁有一個面部區域跟蹤子產品、一個基于馬爾可夫鍊的注意力模型(Markov Chain-based Attention Model)。
StaticScene和DynamicScene模型
模拟感覺靜态和動态場景過程中的眼球運動。
擁有一個基于圖像特征的顯著性檢測(Saliency Detection)模型,用以識别視覺場景中潛在的定點位置。
△動态場景中的眼動資料
基于這些構成,EyeSyn不需要基于已有的眼動資料進行訓練,上崗就能直接開始工作。
并且,與傳統眼動資料的收集過程相比,EyeSyn在模拟不同的眼動跟蹤設定、視覺距離、視覺刺激的渲染尺寸、采樣頻率和受試者多樣性上,也更加友善快速。
現在,隻基于一小部分圖像和視訊,EyeSyn就可以合成超過180小時的眼動資料,比現有的基于目光的活動資料集大18到45倍:
研究人員Maria Gorlatova表示, “合成資料本身并不完美,但這是一個很好的起點。”
小公司不用再花費過多的時間和金錢與人類受試者合作,建立真實活動資料集,而是可以直接使用這種方法。
這種更加快速的眼動資料的生産方式,将使得普通的VR、AR、還有元宇宙平台中的相關應用程式的制作都更加便捷。
△Maria Gorlatova
論文:https://www.researchgate.net/publication/359050928_EyeSyn_Psychology-inspired_Eye_Movement_Synthesis_for_Gaze-based_Activity_Recognition
開源連結:https://github.com/EyeSyn/EyeSynResource
參考連結:https://techxplore.com/news/2022-03-simulated-human-eye-movement-aims.html