Google是如何做移動搜尋的

天為什麼是藍的？

小孩經常問這個問題，但是很少有家長在不需要幫助的情況下能回答得上。不久以前，找到正确的答案至少需要鑽研百科全書，甚至還需要跑一趟圖書館。不過最近，爸爸媽媽隻需要打開電腦，google 一下，點選連結，問題的回答就呈現在面前，然後父母閱讀一下解釋，再用小孩可以了解的方式闡述一遍即可。

但到了 2015，甚至這種看似快捷的過程也算不上快了。首先，在移動裝置上問題的提出更有可能是通過口述而不是在搜尋框敲字。其次，盡管從一堆連結排序中選擇最相關者仍然是特定查詢的有效辦法，那些有着明确定義問題（如天空為什麼是藍的）的人更希望馬上知道答案。如果 google 不能馬上提供答案，這些人就會失望、甚至憤怒。

那麼……“好吧，google……為什麼天是藍的？”

對于 google 最近幾年對搜尋進行的變革，google 搜尋團隊負責人 amit singhal 以飛機空中更換引擎來打比方，其改動包括排名算法，添加新的企業資訊，以及在使用者完成問題輸入前開始搜尋等。除了引擎切換以外，在移動搜尋即将超越桌面搜尋的大背景下，google 也在考慮對“座艙”—使用界面進行徹底的重新設計，甚至考慮整個使命的重新定位。

搜尋一直是公司的旗艦産品，搜尋廣告仍是公司的主要收入來源，google 對搜尋的重視跟外界對 google 的關注點是不一樣的。現在開始有人質疑 google 搜尋在走下坡路。理由包括：1）垃圾結果太多 2）過分強調資訊的更新度而非相關性等。singhal 強烈抨擊這種言論，認為說法與事實完全相反，google 的搜尋做得比 2 年前好得多，那些批評者陷入的是一股對過去的懷舊情緒。

盡管如此，facebook 的社交網絡屏蔽 google 的爬蟲抓取資訊令 singhal 感到憂心忡忡，擔心封閉的網絡會威脅到 google 的地位。但事實證明他過過慮了。facebook 的 graph search 仍非常稚嫩，對 google 幾乎沒什麼影響。微軟的 bing 在搜尋品質上有得一比，但市場佔有率不到 1/5。在基礎設施、人才厚度、經驗、雄心等方面沒有競争對手可以與 google 匹敵。g+ 盡管遠未能成為引起轟動的社交網絡，但的确吸引了許多搜尋使用者的加入。

要說到威脅，google 搜尋最大的威脅并不是來自于競争對手，而是搜尋對象的變化—從 web 遷移到了星羅密布的 app 孤島。不過 google 認為這種情況自己是可以克服的—畢竟開發者跟網站站長一樣希望自己的資訊被發現。從 2013 年秋，google 開始設立 app indexing 将移動 app 内的資料納入整個索引内。現在已經有 15% 的 android 登入使用者可獲得含 app 内資訊的搜尋結果。但是 ios app 是一個很大的坑。

目前抓取 app 資訊的挑戰尚未影響 google 的搜尋統治地位。google 每天接受的搜尋查詢超過 30 億次，每年執行的搜尋超1萬億次。美國 2/3 的搜尋用的是 google，在全球其他地區（中國除外）情況類似。最近 google 搜尋份額的變化隻是因為yahoo跟firefox的預設搜尋引擎交易導緻的。而且 google 還拿到了 80% 的移動搜尋份額。2013 年 google 出現了 5 分鐘的中斷的結果是全球流量下挫了 40%！

盡管搜尋不是外界關注 google 的熱點，但它本身卻正在進行穩步而密集的再造。實際上 17 年的時間裡 google 從未停止對搜尋的改進，但最近幾年 google 搜尋變革的速度明顯加快，為的是保持領先優勢。

其中的一些變化使用者已經有所體會。搜尋更快了、内容更新了、更加社會化了、結果呈現更加豐富了。這些變化不是一夜之間完成的，而是 google 持續不斷的更新改進的結果。google 每周都要開搜尋品質協調會，對算法進行微調。每 2、3 年都要對排名系統進行重大更新，最近一次的代号為 hummingbird。據稱過去 3 年排名系統進行的改動要比此前 13 年的加起來還要多。

google 搜尋的變革主要展現在三個方面：知識圖、語音搜尋和 google now。知識圖把全球的資訊組織為一個浩瀚的資料庫；語音搜尋把口語吸收進了搜尋；而 google now 則提供了未問先答的能力。這三大變化都與 google 聚焦于移動有關。

知識圖（knowledge graph）

知識圖譜的推出源自對 metaweb 的收購。metaweb 2005 年由知名計算機科學家與創業者 danny hillis 創辦，2007 年推出。做的是語義網。metaweb 做的事情也是通過掃描網際網路去回答問題，它擁有 1200 條人、地點與事物的實體記錄，一度被認為是 google 的競争對手。不過最終 hillis 意識到隻有在 google 的大樹下自己搭建全球資訊資料庫的宏偉目标才能實作。而彼時盡管 google 也提供了一些問題（比方說奧巴馬生日）的直接答案，但是卻無法回答“西海岸學費低于 3 萬美元的大學”、“至少獲得過一次奧斯卡獎的年齡超過 40 的演員”這樣的問題。雙方一拍即合。

google 意識到，事物是搜尋的重要部分，而讓大衆關心的事物的事實與資訊迅速呈現是一種很好的方式。于是在 metaweb 的基礎上，2012 年 5 月，google 推出了提供搜尋主體關鍵事實的知識圖作為搜尋的輔助呈現在搜尋結果頁面的右側。現在它的條目已經超過了 5 億。那麼那些搜尋結果會出現知識圖呢？google 會将查詢詞條擴充為其他形式和同義詞等等，然後進行算法測試看看是否與知識圖（knowledge graph）結果相關，确定相關後再從中擇取相關結果呈現（比方說敲“達芬奇”試試）。根據估計，目前約有 25% 的搜尋可喚出知識圖。

在 google 搜尋與知識圖整合的這 2 年多的時間裡，知識圖也在不斷演變。原先它是靜态的，但現在正慢慢吸納 google 搜尋本身在分析使用者行為方面的學習能力。比方說“誰在《太空炮彈》中飾演 barf？”這樣的問題問多了以後，知識圖就知道要把演員、電影和情節等東西列進去。

此外在知識的新鮮度方面知識圖也有了大幅改進。以往知識的更新最長可能需要 2 個星期。但現在系統已經能處理新聞，是以更新調整隻需要幾分鐘。

當然，google 的改進計劃還有很多。包括增加知識域（最近添加了汽車、視訊遊戲、雨果文學獎得主），提供除簡單事實以外更加複雜的、更主觀性、模糊化的搜尋結果。使用者的興趣點就是改進的出發點。而 google 最終想要實作的效果是，讓你不僅覺得跟你對話的不是冰冷的機器，而是既無所不知又懂附庸風雅的聖人。

但這個目标目前還有點遙遠。令産品經理 emily moxley 惱火的是，盡管現在知識圖已經知道一些電視節目，但卻既缺乏新劇集的資訊，也不知道什麼時候上映，在哪裡能夠看到。在知識圖成為聖人之前，google 需要要先實作這一“中期目标”。

或者這個要求還有點高。因為 4 年時間過去了，google 至今仍未給出上述那兩個類似問題（“西海岸學費低于 3 萬美元的大學”、“至少獲得過一次奧斯卡獎的年齡超過 40 的演員”）的一站式的答案。知識圖，任重而道遠啊。

語音搜尋

在意識到移動技術即将變得無所不在後，google 決定對搜尋進行一個微妙但同時又是巨大的變動。它不再把查詢視為送出給計算機系統的指令，而是把所有的輸入當作是對話。而在這裡面，互動方式比輸入更自然的語音将起到非常重要的作用。

這種改變并不僅僅是搜尋引擎處理查詢方式的改變，也需要使用者在思想上做出改變。就像以前 google 教育使用者要以查詢的方式組織搜尋一樣，現在 google 需要使用者以對話的方式進行思考。不過顯然後面這種方式并不需要太多的教育，因為這是我們自然的互動方式。

實作這一變動需要兩方面的舉措。首先是搜尋引擎必須更仔細地傾聽，甚至要解析含糊不清的語音輸入，這種能力此前隻有人類才具備。然後 google 還需要確定人對着手機說話或在搜尋框輸入口語化文字時系統知道人在說什麼。

google 攻關語音識别技術已有好些年頭。2000 年代中期時，google 曾推出過一個名為google 411的服務，做的事情跟電話公司一樣，就是給客戶提供電話查詢系統，不同的是後者是付費的。而 google 的收獲是通過數百萬的免費電話學習如何正确解析多語種多口音的語音。但是 google 無法獲得其所需的 2500 條短語在一部分地區的樣本，于是 google 就直接派人去到哪些地方采樣。

付出終于獲得回報—google 搜尋可相容 159 種語言，而語音搜尋現在已能識别其中的 59 種。公司宣稱，其“單詞錯誤率”已經降到了 8%。

amit singhal 的副手 ben gomes 以自己為例示範了 google 取得的裡程碑式進展。這位印度出生的工程師發音不太标準，在上述行動前，他是沒有機會親自示範 google 的語音識别能力的，以往 google 都是派一位發音純正深受機器青睐的專家來做示範的。不過現在 gomes 跟那位家夥已經失去了聯系。“他已經變得可有可無了。我就可以做示範。哪怕你讓我站在記者前進行查詢我也不怕。”

此外，google 還需要考慮讓手機給人回話。它應該用哪一種嗓音呢？像siri那樣拟人化？還是用一種可辨識的機器人語音來讓使用者意識到對自己正在跟系統（而不是人造人）對話？google選擇了後者。其首席搜尋設計師 wiley 說，為了避免造成與有意識的實體對話的幻覺，你需要自動化一種皮克斯級的叙事能力。“我認為我們與計算機可以喚起人性到人類感到舒服的地步仍有很長一段距離。”

但是技術的發展很快，足以為 google 提供一種進階的語音互動能力。gomes 認為，語音識别能力的提高得益于計算機的處理速度變快、硬體變好以及軟體算法的改進，但是最大的變化是 google 對語言的了解能力提升了。

頭銜為搜尋部門“著名研究科學家”的 fernando pereira 研究自然語言處理（nlp）已有 30 個年頭。過去幾年，在如何将搜尋查詢與網上的文檔及其他資訊集比對上 google 已經解決得相當好，但是像 knowledge graph 這樣得資料庫的引入給搜尋引擎帶來機遇的同時也帶來了挑戰。pereira 說：“你使用的語言是否與資料庫的設計方式比對變得更加難以判斷。”

比方說，google 會收到這樣的查詢：“巨人隊在哪裡打比賽？”雖然是短短的一句話，但引擎需要了解大量資訊：這涉及到了體育，某支隊伍打的是主場等等。然後它還得做出選擇，這裡指的是棒球隊還是橄榄球隊？使用者是想知道這支隊伍的主場體育場還是像了解它下周去哪裡打比賽？google 通過信号和此前的使用者行為去建構答案。這些了解、判斷、推理都是幾年前 google 沒有做過的。

一旦清除了這些障礙，google 的 nlp 系統就能從知識圖中獲得更大的推力，開始逐漸了解世界。包括在使用者措辭不佳甚至表達混亂的情況下揣摩使用者想問什麼。比方說使用者在手機上輸入“戴維▪卡梅倫”時系統已經知道這兩個詞是配對的，知道這是一個人—然後賦予代詞“他”。哪怕麥克風捕捉不到姓氏，知識圖也能斷定這位英國總理是主題。

google懂得越多，就能更好地了解你

2004 年，我問 larry page 和 sergey brin 對搜尋的長期願景是什麼。larry說，搜尋應該被包含進人的大腦裡。“當你思考某件東西時如果不太了解的話，你可以自動獲得資訊。” sergey 指出，關鍵點在于：“你有對話的裝置，或者留意周圍發生的事的計算機，進而可以提供有用的資訊。”

2010 年，兩位 android 工程師 baris gultekin 和 andrew kirsme 倒騰的一個“20%（注：google 的 70/20/10 時間配置設定原則）”項目跟這一願景的精神非常一緻，于是就誕生了後來的 google now。

根據 gultekin 的說法，目前的 google now 與他們最初的設想也保持着高度的一緻。“其核心觀點是你現在的手機并不智能，但是是可以做到智能的，”他說：“如果我們能夠把可感覺、可連接配接的強大裝置與 google 的威力結合到一起的話會怎樣？”

換言之，google now 可回答你太懶或沒時間問的查詢。這意味着要通過多領域資訊的結合來處理某件重要的事。gultekin 說一開始要建立這樣一套系統去做這樣的事是很恐怖的，但他和夥伴先把目标分解成一個領域，通勤。但即便這樣一件有限的事情也需要系統具備大量的知識：家和辦公室的位置，最佳往返路線，交通模式。當然，google maps（以及後來的 waze）知道如何導航是關鍵。google 調用所有的力量去增強這一搜尋工具。不久之後，他們有了一款可靠的 app 來幫助通勤者。“不過我們不希望這隻是一款通勤 app，” gultekin 說：“我們希望它成為一位主動的助手，能幫助處理很多事情。”2012 年 7 月，google now 釋出，當時具備 7 個領域知識：通勤、飛行、體育、附近地方、旅遊、公交以及天氣。現在 google now 的領域已經增加到 70 個，且還在快速增長。“我希望 google now 能夠提供你所需的大部分資訊，其他的 app 隻有在 google now 沒有你所需的東西時才用，” gultekin 說。

google now的效率取決于對世界的深度知識（這個google搜尋和知識圖可以提供）與大量個人資訊的整合。這正是為什麼有人會提出搜尋的這個子集實際上是 google 本身的借代：每次它都會提供一張即時資訊“卡片”。google now 吸收了一大批的 google 服務。一張典型的卡片往往結合了個人郵件、日程表、通信錄、交通安排、交通資訊以及天氣等資訊。

大家往往不知道 google now 是做什麼的，直到它做了。比方說，你停車時，google now 會記錄下你停止行駛了，并記住你在什麼地方離開了車子—以防你忘了車子停在哪裡。如果郵件告訴 google now 你在找房子，它可能就會推送一些你希望居住地區的待售房産。

随着 google now 的不斷演變，現在它已經從 20% 項目變成了全職服務。不過給 google now 的發展提供最大動力的也許是蘋果。2011 年，蘋果釋出了 siri，給 google 總部造成了一點點的恐慌，進而加大了這一語音助手項目的投入。随後它變成了搜尋部門的官方組成部分，盡管團隊仍同時分屬搜尋和 android。當然這種安排也是合适的，除了推送給使用者的非查詢消息外，所有的個人資訊最終都會為登入使用者的搜尋框所利用（目前可做到“送我上班要多久？”很快将實作“我的車在哪裡？”）。搜尋和 google now 非常具有互補性，gultekin 說：“我們希望在你開始搜尋前就提供資訊，但還是會有很多情況是我們不知道的，比方說你的水管爆了，你需要管道工。” （當然，未來通過 google 收購的智能家庭平台 nest，google 有可能會知道這一點的。）

與舊版搜尋相比，google now化的搜尋隻有在使用全系google産品時才能發揮最大效用。“larry 有個說法—‘搜尋應該了解你的意思并提供你想要的東西，’” yehoshua 說：“這是一個 google 生态體系—如果你登入手機和桌面，我們可以利用這一點。如果你希望獲得飛行資訊，跟蹤包裹以及任何我們可從 gmail 獲得的資訊，你都可以得到。如果你不用 gmail（當然你不會），你仍然可以獲得我們豐富的語音和回答等等。”

沒有繞行方式—如果你想用 google，但 gmail 不是你的首選，那就無法獲得 google now 或甚至 google 搜尋的全部價值。“生活在一個我們能夠分享所有這些資訊的世界裡将是非常美好的，” yehoshua 說：“我不認為明天就會實作。蘋果做起來會好點，但我們實作會更加困難。”

google有意識地不把google now當作獨立産品。相反，它把now包含進搜尋app裡面。而app本身也不叫“搜尋”，很簡單，就叫“google”。這種取名方式不僅說明了搜尋與google關系之緊密，也說明了google now對公司的重要。

盡管如此，google now 元件還是可選的。使用前 google 會提出隐私方面的警告，而該産品的無所不知也可能會成為令人不安的提醒器，告訴我們這家巨頭對我們的了解有多少。google 掌握我們的個人資訊越多，它惹上的麻煩也越多—尤其是在歐洲，加強監管、巨額罰款甚至解體威脅一個沒落，其服務我們的抱負也許會被對隐私的擔憂挫敗。哪怕是那些相信 google 的人，在斯諾登披露政府如何輕易獲得我們的資訊之後也無法淡定了。如果 google now 知道你在哪裡停的車的話，當地的情報機構是不是也一樣知道？

amit singhal 認為，第一代搜尋是在人與遠端機器的互動之間隔着一道牆。而我們逐漸進入的搜尋新時代将會打破這堵牆，這與把移動裝置當作電子人化的附體是同步的。我們預期手機會知道我們的意思。我們預計搜尋既精通于提供包含我們個人資訊的答案，又能從網頁、文檔及公共資料庫中挖掘事實。

“我把搜尋視為一切計算的接口，”singhal 說：“裝置消失或最小化或融入環境之後，你又如何跟它們互動呢？因為大多數時候，你需要采取行動—或者簡單如播放音樂，或者複雜點，寫備忘錄提醒自己來到小賣部附近時記得買牛奶。或者你會有‘我老婆的航班是否準時？’或者“奧巴馬有多高？”之類的問題”

大家也許會把過去當作理所當然—抱怨 google 搜尋已經不像以前那樣。但 singhal 指出，google 搜尋已經越過了那道橫亘在他面前幾十年的障礙。“作為一名研究人員我攻關了 20 年都沒有成功，”singhal 說。他指的就是他的團隊在 google 搜尋上面所取得的成就。但他也承認，還有比現在多得多的問題有待解決。但在描述某類他不再失敗的查詢背後的科學時，他的聲音充滿了自豪。對了，那個問題就是：天為什麼是藍的？

www.baidu.com

www.bing.com

www.google.com.hk

www.google.com.sg

原文釋出時間為：2015-01-26

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

Google是如何做移動搜尋的

繼續閱讀

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

資料結構與算法（27）——排序（二）

Android電視機（機頂盒）初次開發的一些經驗分享

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希