天天看點

語言處理AI被谷歌地圖訓練:年删帖過億條,訓練樣本海量

語言處理AI被谷歌地圖訓練:年删帖過億條,訓練樣本海量

新智元報道

編輯:袁榭 拉燕

【新智元導讀】從自動識别街牌、到自動删除詐騙資訊,谷歌地圖這個項目現在越發依賴于機器學習的工具。

遏制不良網絡動态的未來,掌握在機器學習的手中。

在搜尋業巨擘谷歌的手中,機器學習工具在2021年通過監管谷歌地圖上的違規行為,得到了真正的鍛煉。

谷歌地圖團隊表示:「我們的團隊緻力于讓真人使用者在地圖上釋出的内容盡量可靠,并基于現實世界的親身體驗。這項工作有助于保護企業免受欺淩和詐騙,并確定評論對使用者有幫助。這個内容政策旨在防止我們的平台上出現誤導性、虛假性和辱罵性評論。」

語言處理AI被谷歌地圖訓練:年删帖過億條,訓練樣本海量

谷歌用機器學習一年内删除過億次欺詐性編輯、近兩億條違規影像

谷歌公司在最近一篇關于如何保持地圖資訊可靠的官方部落格文章中,表示該公司結合了機器學習和人工操作員,在2021年内阻止了超過1億次對地圖應用程式上的谷歌商戶頁面資料進行欺詐性編輯的企圖。

這得益于不斷進步的機器學習模型,提升了谷歌識别機器人惡意刷屏以及可疑行為的效率。

用同樣的方式,谷歌公司還删除了超過700萬份地圖應用程式上的假商戶頁面,其中有63萬份删除是基于使用者真人報告的。

此外,谷歌表示,它還阻止了1200萬次詐騙犯假冒其他公司的嘗試,并阻止了800萬次索取地圖應用程式上其他公司商戶頁面權限的欺詐行為。

機器學習工具還幫助谷歌地圖團隊删除了近2億份「低清晰度或違反規則」的違規照片和視訊。

最重要的是,由于這些違規操作,谷歌删除了100萬個用以詐騙的使用者賬号。

語言處理AI被谷歌地圖訓練:年删帖過億條,訓練樣本海量

這條關于維持谷歌地圖可靠性的文章,還提到了在2021年新冠疫情緩和、商業活動重新開張後,谷歌如何保護商家免遭地圖應用程式上相關虛假評論損害所采取的措施。

超過9500萬條違反谷歌相關規則的地圖頁面評論被删除,其中6萬條在不同程度上與新冠相關的問題有關。

谷歌地圖每天會收到大約200萬條來自使用者貢獻的資訊。這些資訊中包括随時更新的商戶經營時間、聯系方式和顧客評論。

在整個2021年,使用者提供的資訊幫助谷歌地圖完善了商戶頁面服務。2021年在谷歌地圖上出現的商家比2020年多了30%。

谷歌地圖這個大受歡迎的程式,無疑會成為吸引不當行為的磁石。是以谷歌在維持程式環境清朗上付出了巨大努力,着實令使用者欣慰。

額外訓練讓稽核的AI更智能

但是,雖然谷歌地圖使用機器學習取得了很好的效果,但人工參與此過程毋甯更加令使用者放心,畢竟AI的智能實在有其極限。

比如說一家披薩店的大蒜面包味道實在太糟,使用者給出「炸裂」的開玩笑評論,結果被AI當成是暴力威脅給删除了。人工智能實在沒有幽默感。

谷歌地圖團隊中,負責使用者釋出内容的産品經理Ian Leader在官方部落格的貼文中描述了如何結合機器學習與人工稽核:

機器學習在稽核過程中發揮着重要作用。大量應用機器學習的稽核系統是谷歌的「第一道防線,因為它們擅長模式識别」。

這個系統會檢查每條評論是否存在可能違反規則的行為。例如,系統會判别評論的語言模式、使用者或企業帳戶的曆史記錄、以及是否存在與特定經營地點相關的任何異常活動(例如一星或五星評論數量的突然劇增)。

Leader稱,機器學習模型在任何使用者看到之前就消除了「絕大多數虛假和欺詐性内容」。這個過程可能隻需要幾秒鐘,如果模型在評論中沒有發現任何問題,它會極快通過之、讓其他使用者讀到。

語言處理AI被谷歌地圖訓練:年删帖過億條,訓練樣本海量

不過,這些系統并不完美。Leader舉例:「有時「男同志」這個詞被用作貶義詞,這在谷歌應用程式的評論欄中是不被允許的。

但如果機器學習模型在訓練時隻使用了仇恨言論的資料集,我們可能會錯誤地删除那些同志企業主的廣告、或關于性少數人群安全空間的評論。」

是以,谷歌地圖團隊經常對AI進行品質測試并進行額外的訓練,以教授系統特定單詞和短語的各種語境背景,以此完善機器學習模型、減少偏見值、保證讓AI在删除有害内容和保護有用評論之間取得平衡。

谷歌地圖還有一組人在人工評估企業和使用者标記的評論。在某些情況下,除了删除違規評論外,谷歌還會暫停使用者帳号并提起訴訟。

機器學習為谷歌地圖讀街牌

谷歌地圖的業務,仰賴于機器學習算法的部分其實遠不止稽核。可以說,沒有機器學習,現在一大半谷歌地圖的業務都開展不下去。

圖像和審查過的資料是靜态的,跟不上使用者周遭不斷變化的世界。機器學習算法可以分析即時圖像和資料,并識别新資料的變化。

如此,地圖應用可以僅根據真實環境最晚近的更改進行更新。這提高了地圖内容生成的速度、并保證生成過程自動化的同時保持準确性。

語言處理AI被谷歌地圖訓練:年删帖過億條,訓練樣本海量

谷歌地圖項目利用深度神經網絡自動執行圖像資訊讀取過程。算法可通過TensorFlow在GitHub上公開獲得,TensorFlow是谷歌自己的開源機器學習軟體庫。

谷歌地圖項目早已在用機器學習來識别汽車牌照,現在還在使用相同的技術從路牌中擷取資訊。

谷歌旨在使用這項技術,改善地圖應用中全球約三分之一位址的位置資料。在法國的幾個比較有識别難度的街道标志上進行測試時,最新的機器學習算法實作了84.2%的準确率,性能優于以前。

谷歌地圖項目現在應用的機器學習工具,改進了過去讀取街道編号和街道名稱的軟體套裝。新算法可以去掉圖檔中任何不相關的文字,并用全名替換之前無法判讀的縮寫。

算法為谷歌地圖識别建築物輪廓

建築物是地标,是使用者在檢視地圖時如何知道自己所在位置的關鍵部分。

過去的舊算法在試圖猜測圖檔的一部分是否是建築物時,常會生成形狀不規則的斑快。當這些圖檔疊合在地圖上時,就看起來全不是真實的建築物了。

為了解決這個問題,谷歌資料營運團隊持續手動标記常見的建築輪廓,然後使用這些标注過的資料,訓練機器學習算法,讓AI學會哪些圖像與建築邊緣和形狀相對應。

語言處理AI被谷歌地圖訓練:年删帖過億條,訓練樣本海量

依靠谷歌的技術力、資金,與人力,現在如此流程讓AI在一年内于地圖上标繪的建築物,與過去十年标繪的同樣多。

現在,當某個區域出現建立築物或商鋪時,谷歌的機器學習算法會識别變化并更新現有地圖,而不是重新繪制整個區域的地圖。這為服務的供需雙方都節省了大量的時間和精力。

算法為谷歌地圖更新實時公交資料

谷歌公司正在構思新的方式,讓使用者實時了解他們乘坐公共汽車的狀态。

谷歌地圖将通過機器學習實作預測能力,提前通知使用者他們要乘坐的公共班次是否會遇到阻礙延誤。谷歌地圖現在的算法能實時獲得跟蹤資料,試運作中已能預測全球數百個城市的延誤。

語言處理AI被谷歌地圖訓練:年删帖過億條,訓練樣本海量

概言之,谷歌的機器學習模型使用标準的交通資料作為基準真值,再針對公共汽車行進和路線的特殊性進行調整。

谷歌地圖團隊從公共汽車的位置序列中提取訓練集資料,這些資料來自公交機構的實時回報,再将它們與行程中公共汽車的行進速度對齊,就能得出置信度極高的訓練資料集。

在世界日新月異變化的今天,谷歌地圖所提供的最新的資訊彌足珍貴。沒有機器學習,谷歌地圖也難以為繼。

參考資料:

https://www.androidpolice.com/google-maps-machine-learning-block-100-million-abusive-edits/

https://blog.google/products/maps/how-we-kept-maps-reliable-2021/

https://www.engadget.com/google-maps-review-bombing-machine-learning-153740932.html

https://blog.google/products/maps/how-google-maps-reviews-work/

https://www.springboard.com/blog/data-science/machine-learning-google-maps/

繼續閱讀