識别并提取圖檔有效資訊是谷歌地圖發展的新方向之一
谷歌地圖每天都會向數百萬人提供有用的向導、實時交通資訊和商業資訊。 為了提供最好的使用者體驗,這些資訊必須不斷地反映持續變化的世界。 雖然街景汽車每天收集數百萬張圖檔,但是無法手動分析迄今為止收集的超過800億張高分辨率圖檔,以便為谷歌地圖找到新的或更新的資訊。google地面實況團隊(ground truth team)的目标之一是使我們可以自動從含有地理位置資訊的圖檔中提取資訊,進而改進谷歌地圖。
在《從街景圖檔中提取基于注意力的結構化資訊》論文中(背景回複“谷歌”下載下傳論文全文),我們描述了在許多國家使用深度神經網絡自動地從非常具有挑戰性的街景圖檔中準确讀取街道名稱的方法。 我們的算法在具有挑戰性的法國街頭标志(fsns)資料集上實作了84.2%的準确性,顯著優于以前的最先進的系統。 重要的是,我們的系統很容易擴充,以便從街景圖檔中提取其他類型的資訊,現在,它可以幫助我們從商店門面圖檔中自動提取商店名稱。 我們很激動地宣布,這個模型現在是開源的!
來自fsns資料集的街道名稱示例,由我們的系統正确标記。 同一個辨別最多提供四個視圖。
自然環境中的文本識别是一個具有挑戰性的計算機視覺和機器學習問題。雖然傳統的光學字元識别(ocr)系統主要集中在從掃描的文檔中提取文本,但是由于自然場景擷取的文本存在視覺僞像(如失真,遮擋,方向模糊,雜亂的背景或不同的視角)而更具挑戰性。解決這一研究挑戰的努力源自2008年,當時我們使用神經網絡來模糊掉街景圖檔中的面孔和車牌,以保護使用者的隐私。從這個初步研究中,我們意識到,使用足夠多的帶标簽的資料,我們不僅可以使用機器學習來保護使用者的隐私,還可以通過擷取最新的相關資訊來自動改進谷歌地圖。
實習生牽起街景數字資料集閱讀方法項目
2014年,谷歌的地面實況小組釋出了最新的街景數字(svhn)資料集閱讀方法,該方法由當時的暑期實習生(現為google員工)ian goodfellow實施。這項工作不僅具有學術意義,而且對制作更為準确的谷歌地圖至關重要。今天,全球有三分之一以上的位址由于采用了這一系統而得到改進。在一些國家,如巴西,該算法已經改善了谷歌地圖中90%以上的位址,大大提高了我們地圖的可用性。
理所當然地,下一個步驟是将這些技術擴充到街道名稱。為了解決這個問題,我們建立并釋出了法國街名标志資料集(fsns),這是一個超過100萬個街道名稱的大型訓練資料集。 fsns資料集是一項多年努力,旨在允許任何人在具有挑戰性和真實用途的情況下改進其ocr模型。 fsns資料集比svhn大得多,更具挑戰性,因為對街道标志的準确識别可能需要組合許多不同圖檔的資訊。
這些是由我們的系統通過選擇,或結合對圖檔的了解而正确标記的具有挑戰性的辨別示例。 第二個例子本身是極具挑戰性的,但該模型在之前學習了一種語言模型,使之能夠消除模糊性并正确閱讀街道名稱。
通過這個訓練集,谷歌實習生zbigniew wojna 2016年花了一個暑假,開發了一個深度學習模型架構,自動标注了新的街景圖檔。 我們的新模型有一個非常有意思的優點,它可以将文本标準化,與我們的命名習慣保持一緻,并且可以忽略無關的外部文本。
在這個例子中,模型并沒有被混淆,因為有兩個街道名稱,正确地将“av”标準化為“avenue”,并正确地忽略了數字“1600”。
項目觸角仍在不斷延伸中
雖然這個模型是準确的,但确實顯示了15.8%的錯誤率。然而,在分析錯誤案例後,我們發現其中48%是由于地面實況錯誤,突出表明該模型與标簽品質相一緻。(對錯誤率的完整分析可以在我們的論文中找到)。
這個新系統與提取街道号碼的系統相結合,使我們能夠直接從圖檔建立新的位址,我們以前不知道街道的名稱或位址的位置。現在,隻要街景汽車在建立的道路上行駛,我們的系統就可以分析成千上萬的被捕獲的圖檔,提取街道名稱和數字,并在谷歌地圖上自動正确建立和定位新位址。
但是,自動建立谷歌地圖的位址是不夠的——我們還希望能夠通過店鋪名稱為商家提供導航。在2015年,我們發表了《街景圖檔大規模發現商家》的文章,提出了一種在街景圖檔中準确識别商店店面标志的方法。然而,一旦檢測到商店門面,仍然需要準确地提取其名稱以供使用——模型必須确定哪個文本是商家名稱,哪個文本是不相關的。我們将其稱為從圖檔中提取“結構化文本”。它不僅僅是文本,它還是附有語義的文本。
使用不同的訓練資料,用于讀取街道名稱的模型架構也可用于從商家外觀圖檔中精确地提取商家名稱。在這種特殊情況下,我們能夠僅僅提取商家名稱,來驗證谷歌地圖中是否已經存在該商家,進而使我們能夠獲得更準确和最新的商家清單。
缺失位置資訊的情況下,系統能夠預測圖檔中商店的名稱為“zelina pneus”。 模型沒有被商店所賣的輪胎品牌(firestone)所迷惑。
在超過800億的街景視圖圖檔中應用這些大型模型需要大量的計算能力。 這就是為什麼地面實況團隊是今年早些時候宣布的谷歌 tpu的第一個使用者,這樣大大降低了我們的計算成本。
人們依靠谷歌地圖的準确性來獲得幫助。 在保持谷歌地圖與城市不斷變化的環境保持一緻的同時,道路和商家提出了一個遠未解決的技術挑戰,地面實況團隊的目标是推動機器學習中的劃時代的創新, 為十多億谷歌地圖使用者創造更好的體驗。
原文釋出時間為:2017-5-4
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号