作者 | 任小楓

高德首席科學家：視覺是連接配接真實世界的橋梁視覺是連接配接真實世界的橋梁視覺技術@高德地圖：地圖制作視覺技術@高德地圖：導航

我今天主要給大家介紹視覺及相關技術如何在高德落地，如何幫助連接配接真實世界。連接配接真實世界這句話并不隻是我個人的想法，而是高德地圖的使命，我們的使命是“連接配接真實世界，讓出行更美好”。

首先，簡單介紹下高德地圖，有超過1億的日活使用者，超過4億的月活使用者，高德地圖不光提供導航，也提供出行相關的其他服務，涵蓋了資訊服務、駕車導航、共享出行、智慧公交、智慧景區、騎行、步行、長途出行等應用場景。

高德地圖做的事情是建立人和真實世界的關系，人要跟真實世界建立聯系，地圖是基礎，地圖之上還有更多的資訊可以擷取。

視覺是連接配接真實世界的橋梁

視覺是連接配接真實世界的橋梁。為什麼？從人的資訊擷取角度來看，80%的内容是通過視覺擷取到的。從人的資訊處理來看，人的大腦30%-60%用于視覺感覺。從機器的角度，視覺是非常重要的通用感覺手段。

人類感覺真實世界的方法，還有很多其他方式，例如傳感器、LT...但是，作為通用的手段，我一直覺得視覺是第一選擇，通用，資訊量非常大，可以遠距感覺，也可以做到實時。

還有一個原因，人類真實世界裡（各種元素）80%以上是為了視覺而設計。有的時候，我們對真實世界太過于熟悉，可能不會太在意。但是看一下周圍的标志和資訊，包括認識的事物，都是根據視覺設計和擷取。

因為人類擷取資訊的主要方式是通過視覺，是以真實世界的設計也是基于視覺。大家可以想象下，如果擷取資訊的主要方式是通過嗅覺，那這個世界會非常不一樣。基于這些，回到我們在做的事情，大家一定不會奇怪，地圖資訊的擷取和建立，絕大部分也是來自于視覺。

視覺技術@高德地圖：地圖制作

視覺技術在高德地圖的應用有很多不同的方式，如下圖所示：

左邊是地圖制作，有正常地圖和高精地圖，高精地圖對應于未來的無人駕駛。右邊是跟導航體驗相關的，我們在做的一些跟定位相關的工作，也在利用視覺技術希望使導航變得更加便利。因為時間關系，今天隻給大家介紹正常地圖和導航相關的部分。

地圖服務從哪裡來，首先要采集資料，目前絕大部分是通過相機和視覺的方式采集資訊。真實世界很大，全國有幾百萬公裡道路，再加上其他資訊，人工方式目前是處理不過來的，很大程度上需要用自動識别，通過算法識别資料。當然有時候算法沒辦法做到100%，還需要人工修正，進而制作成地圖資料庫，來支援地圖資料服務。

地圖制作任務，正常地圖任務通常分為兩大類，一類是道路相關，一類是POI挂牌識别。這兩類任務都需要較多的視覺技術。例如，在道路标志識别上，算法要做的就是把道路上的标志一個一個全部找出來，同時識别标志的類型和内容。

道路标志有100多種。如果隻是處理這些标志，其實并不是那麼複雜。現實中，有時候需要用低成本的方式采集資料，這時如何保證圖像品質就是需要考慮和解決的問題。

采集資訊的時候，有時候圖檔會有畸變、反光、遮擋等情況，先不說分辨率壓縮的問題，成像本身取決于鏡頭的品質和成本、天氣條件、光線等因素，有時候采集回來的圖像中差的圖很多。這時候就不隻是單純去解決一個理想當中的算法問題，也需要處理很多實際情況。

給大家舉幾個例子，下面左邊的圖是實際采集的圖像，會有各種各樣的問題。大家對相機有些了解的話，知道相機有内參和外參，内參是焦距、中心、畸變。外參是位置、角度，這些都會影響成像效果。

對于識别問題來說，這些相機參數不會造成太大問題，但是如果需要做一些跟幾何、位置相關的計算，這時候相機畸變和内外參不準就會造成很大的問題。我們通過把多源資料放在一起做比對，基本可以解決這個問題。右邊是一個實際例子，相機的畸變糾正角度，有一些斜的被糾正過來了，很大的提高了後面的算法處理。

另一個例子，圖像品質。有的圖品質比較差，但是沒辦法丢掉，還是有有用的資訊。有的原始圖像，放大之後非常模糊。如果這時采用圖像增強的方法，可以把這張圖變得更清楚。改善原始資料的品質，有很多可用的方法。比如提高識别算法精度，提高人工效率，也可以用它做模糊的檢測，對比一下增強前後，可以知道哪些是模糊，哪些是不模糊。

剛才舉的隻是交通标志的例子。還有一個有趣的問題，就是感覺電子眼。電子眼很小，而小目标的檢測是一個有挑戰的問題，在研究領域大家也比較關注。大家可以感受下，拿一張圖，如果是太小的東西，放大之後就看不清了，還不如遠景。那怎麼能比較精确的找到這麼小的電子眼呢？

通常方式就是放大區域，因為這個東西太小了，光找這個目标比較難，找到區域放大，引入周邊的資訊。這些資訊可以幫助更好的找到這個小目标，放的再大一點，才能看到其他相關的資訊來幫助電子眼的智能檢測。

但是放得太大也會有問題，放的太大會引入很多無關的資訊。從技術上來說有一些解決方法，現在視覺技術上用的比較多的有一個注意力機制，畫一個大框，機器自己會學哪塊重要哪塊不重要，幫助更好的聚焦到目标本身。當然，盡量會用一些先驗資訊，比如本身的分布、高度、大小。

光檢測還不夠，很多時候真實世界在變。很多時候要分辨出哪些變了哪些沒變。以前檢測出一個電子眼，新的資料又檢測出一個電子眼，需要知道這兩個是否是同一個。

如何判斷？因為這張圖表達的不一樣，如果仔細看，确實可以看到背景的建築、架設類型都差不多。需要用算法來判斷到底是不是，這就牽涉到目标檢測、車道歸屬、架設類型分析，還要做場景比對。通過這些，很大程度上可以判斷這是一個什麼場景，進而判斷兩張圖的元素是不是同一個。

剛才說的是道路，下面是幾個跟POI相關的例子。POI的牌子，可以分成好多不同類型，有牌坊式、挂牌式、門臉式等。不僅POI各種各樣，非POI其實也各種各樣。如果隻是檢測文字的話，你會發現真實世界裡的很多不是POI，有的隻是标牌、智語、廣告、對聯、交通标志等。是以，要區分出POI和非POI。

有很多其他的複雜場景，這裡不一一舉例了，有些可能平時也不太能想到，比如三維挂牌，它不是一個平的牌子，在街角，可能是一個水果超市，沿着街角彎曲過來。這類牌子很難在一張圖裡完全檢測出來，即使檢測出來，一不小心就會分成兩塊牌子，是以真實世界的複雜性還是會造成更多的問題。

面對這麼多複雜性，需要去分析具體場景的情況。很多時候最後的結果往往不是一個算法就能解決所有的問題，需要各種算法的融合。比方說，如果是文字，需要做檢測，文字本身也需要做檢測和識别。位置的話，需要做一些三維方面的推斷。很多時候資料擷取到以後也有模糊和遮擋的部分，也要做判斷。

每一個判斷不是單一辦法就可以解決，不是光靠一個模型就能夠做到最好的效果，需要的是兩個甚至更多的模型，從不同的角度去解決問題，才能夠達到更好的效果，這是在資料積累的基礎之上。

上面列舉的一些問題有一定的複雜性，跟所有的問題一樣，越做到後面越難，我們現在還在做，這些算法很大程度上決定了地圖制作的效率和觸達到使用者的地圖品質，這些是非常重要的核心問題。

POI也不光是以上介紹的隻需要判斷是不是POI或者文字識别，很多時候還需要做版面的内容了解。如果一個牌子，需要知道這個牌子上的資訊，有時候會有主名稱，有時候會有分店，有時候沒有，有沒有聯系方式、營業範圍，這些都需要用算法去做。

視覺技術@高德地圖：導航

以上介紹的是在地圖制作方面有很多的複雜性，需要用視覺算法或者其他算法來處理。接下來分享下在導航方面的。

先說下自己的一個體會。前段時間在西班牙休假，歐洲的環島特别多，谷歌（地圖）導航經常提示我，進了彎道之後從第三個出口出去，我當時特别郁悶，因為要數口子，經常你也不知道那個到底算不算出口，是以走錯了好幾次。我在國内沒開過車，國内的交通更複雜，例如在北京的西直門，有時候可以直接右拐，有時候需要轉一個810度的圈。

我們希望對導航的方式做一個比較大的變化，讓它變成所見即所得的場景。如果有算法能夠直接告訴人們往哪邊走，對人來說是更加有用的，能夠讓開車更加簡單，導航變得更加直接。

很多汽車現在都會有攝像頭，不管是前端還是後端，很多時候可以擷取到視訊資料。我們把AI算法計算出的效果疊加在視訊上，告訴人們到底該怎麼走。

高德在今年4月份釋出了AR導航産品，這個産品裡有一項是實景增強，它會告訴你應該保持在這條線上繼續往前開或者轉彎，會有壓線的提示，會有箭頭告訴你前面右轉。

這個産品中，除了引導之外，還有别的功能。例如，也加入了前車的碰撞預警功能，會估計前車的距離和速度，這将幫助大家安全駕駛。其他事物也可以用更加直覺的方式展示，例如限速，電子眼，跟斑馬線相關的，如果看到前方有人，也會做出提示。

以上的功能看起來可能不那麼難，但要實作起來很難。為什麼？因為我們希望這是每個人馬上就能實用的功能，是以要做到很低的成本。這和自動駕駛系統不一樣。從傳感器的角度，我們要做的是單個傳感器，而且是低成本的相機。從計算的角度來說，自動駕駛系統可能會用一個幾百瓦的專用晶片，而對于我們來說，所需要的算力大概隻是普通手機的五分之一。

給大家看一個AR導航的例子，這是實際算法的輸出，這個例子裡面有車輛的檢測，車道線的分割，和引導線的計算等。剛才提到了，高性能（低算力）是一個主要挑戰，那我們在開發算法的時候就要充分考慮計算效率，包括各種手段，比如模型壓縮，小模型訓練優化，檢測和跟蹤的結合，多目标的聯合模型，和傳統GPS導航的融合，等等，需要幾件事情在一個模型裡做。

真實世界是非常複雜的，要做到高品質、高效的地圖制作，或者做到精準的定位導航，在視覺方面還有很多工作要做。希望通過以上介紹，大家對視覺技術在高德地圖中的應用，在出行領域的應用，有了更多的了解，也對高德的使命有了更多了解。

我們在很多時候需要去連接配接真實世界或者是了解真實世界，才能夠讓出行更美好。希望能夠盡快的把這些做好，讓大家實際應用高德APP的時候，能夠感受到技術進步帶來的體驗變化。我今天就講到這裡，謝謝大家。

高德首席科學家：視覺是連接配接真實世界的橋梁視覺是連接配接真實世界的橋梁視覺技術@高德地圖：地圖制作視覺技術@高德地圖：導航

視覺是連接配接真實世界的橋梁

視覺技術@高德地圖：地圖制作

視覺技術@高德地圖：導航

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希