在今天數字驅動的世界,資訊觸手可及又無窮無盡。但當你想要了解某種未知的東西,比如你在朋友家裡看到的廚房小工具的名字,你會發現你很難,也不知如何才能從網絡上的大量資訊中搜尋、篩選有用資訊。或者,一種截然相反的問題出現了--我們确實能在網際網路上查找任何東西,但如何確定我們在短時間查詢到一切與主題相關的資訊?
來自華盛頓大學和位于西雅圖的艾倫人工智能研究所( the allen institute for artificial intelligence)的計算機科學家創造了第一個全自動計算機程式,用來做視圖概念的機器學習。名為學習關于一切的一切,或者叫做列文(levan),該程式将線上搜尋成千上萬的書籍和圖檔,來學習某概念及所有變化,接着将結果以一組全面而可浏覽的圖檔清單呈現給使用者,以幫助他們快速詳細地檢索、了解主題。
“這個程式所做的就是發掘文本資料與可視化資料之間的關聯,”ali farhadi介紹說到——他是華盛頓大學計算機科學工程專業的一位助理教授,“程式學着将圖像中像素與豐富的集合描述緊密耦合,這意味着當程式看到這些圖檔時,就能識别出特定的概念執行個體”。
在本月俄亥俄州哥倫比亞的計算機視覺和模式識别年會(the computer vision and pattern recognition annual conference)上,該研究團隊将會展示這一項目以及一篇相關論文。
通過浏覽線上圖檔的内容并使用目辨別别算法辨識這些圖檔的特征模式,程式就能分辨出相關條目。與線上圖檔庫不同,此程式憑借豐富的短語以及圖檔内容、像素組合,來了解并辨別圖檔。
使用者能浏覽現有的大約175概念庫。這些現有的概念範圍從“航線”到“窗子”,包括“美麗”,“早餐”,“陽關”,“癌症”,“創新”,“滑闆”,“機器人”,以及研究人員第一個輸入,“馬”。
假如你查詢的概念不存在,你可以送出任何搜尋術語,程式會自動産生詳盡的,與此概念關聯的子分類圖檔清單。比如,一個關于狗的搜尋會産生顯而易見的子分類集合:照片包括“吉娃娃(chihuahua dog)”、“沮喪(black dog)”、“遊泳的狗狗”,“髒亂的狗狗”,“靈缇犬”。但“狗鼻”、狗盆、“易闖禍的人(sad dog)”、最醜的狗、“熱狗”,甚至瑜伽姿勢“下犬式(down dog)”,也出現其中。
此技術通過在成千上萬的谷歌英文書籍中尋找文本,并且在完整的數位庫中查詢每一個可能的概念來發揮作用。接着用一套算法過濾掉非視覺文本概念。以“馬”這個概念為例,算法會持有“奔騰的馬”、“吃草的馬”、“帶籠罩的馬”這些描述詞,但會排出諸如“我的馬”、“最後一匹馬”這樣非視覺的描述詞。
一旦程式習得了那些描述詞是關聯的,它就會做線上圖檔查詢,在檢索到的照片中尋找存在關聯性的圖檔。比如,當訓練過的程式尋找“奔騰的馬”相關的圖檔,它能識别所有與此描述關聯的圖檔。
“諸如詞典以及百科全書為主要來源的資訊庫,直接地向使用者展示了可視化資訊,主要是因為這些資訊容易了解并且可以快速地通過概念查詢去浏覽。然而,使用者手動查詢常常限定了查詢的範圍。不過,新程式無需人員監控,是以它能自動針對任何概念習得視覺知識。”santosh divvala介紹說,他既是人工智能艾倫研究所(allen institute for artificial intelligence )的一名研究科學家,也是隸屬于華盛頓大學計算機科學與工程系(uw in computer science and engineering)一名科學家。
研究團隊也包括carlos guestrin,他是華盛頓大學計算機科學與工程系(uw in computer science and engineering)教授。三月份研究者發起這個項目時僅有少部分可視化概念,自此以後,超過130萬張的圖檔被用6.5萬不同的描述語所辨別,他們見證了這些可視化概念增加的過程。
現在,程式在快速習得概念方面的能力很有限,主要受限于處理每條查詢的計算能力,對于一些寬泛的概念需要12小時。研究者正加速程式處理速度以及處理能力。
團隊希望開源的項目既能滿足計算機可視覺化社群教學所需,又可以滿足研究者對資訊庫的需求。與此同時,他們打算提供一個智能手機應用,以便能運作具備自動地解析歸類圖檔功能的程式。
這項研究得到了美國海軍研究辦公室、全國科學基金以及華盛頓大學的基金資助。
原文釋出時間為:2014-07-21
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号