天为什么是蓝的?
小孩经常问这个问题,但是很少有家长在不需要帮助的情况下能回答得上。不久以前,找到正确的答案至少需要钻研百科全书,甚至还需要跑一趟图书馆。不过最近,爸爸妈妈只需要打开电脑,google 一下,点击链接,问题的回答就呈现在面前,然后父母阅读一下解释,再用小孩可以理解的方式阐述一遍即可。
但到了 2015,甚至这种看似快捷的过程也算不上快了。首先,在移动设备上问题的提出更有可能是通过口述而不是在搜索框敲字。其次,尽管从一堆链接排序中选择最相关者仍然是特定查询的有效办法,那些有着明确定义问题(如天空为什么是蓝的)的人更希望马上知道答案。如果 google 不能马上提供答案,这些人就会失望、甚至愤怒。
那么……“好吧,google……为什么天是蓝的?”
对于 google 最近几年对搜索进行的变革,google 搜索团队负责人 amit singhal 以飞机空中更换引擎来打比方,其改动包括排名算法,添加新的企业信息,以及在用户完成问题输入前开始搜索等。除了引擎切换以外,在移动搜索即将超越桌面搜索的大背景下,google 也在考虑对“座舱”—使用界面进行彻底的重新设计,甚至考虑整个使命的重新定位。
搜索一直是公司的旗舰产品,搜索广告仍是公司的主要收入来源,google 对搜索的重视跟外界对 google 的关注点是不一样的。现在开始有人质疑 google 搜索在走下坡路。理由包括:1)垃圾结果太多 2)过分强调信息的更新度而非相关性等。singhal 强烈抨击这种言论,认为说法与事实完全相反,google 的搜索做得比 2 年前好得多,那些批评者陷入的是一股对过去的怀旧情绪。
尽管如此,facebook 的社交网络屏蔽 google 的爬虫抓取信息令 singhal 感到忧心忡忡,担心封闭的网络会威胁到 google 的地位。但事实证明他过过虑了。facebook 的 graph search 仍非常稚嫩,对 google 几乎没什么影响。微软的 bing 在搜索质量上有得一比,但市场份额不到 1/5。在基础设施、人才厚度、经验、雄心等方面没有竞争对手可以与 google 匹敌。g+ 尽管远未能成为引起轰动的社交网络,但的确吸引了许多搜索用户的加入。
要说到威胁,google 搜索最大的威胁并不是来自于竞争对手,而是搜索对象的变化—从 web 迁移到了星罗密布的 app 孤岛。不过 google 认为这种情况自己是可以克服的—毕竟开发者跟网站站长一样希望自己的信息被发现。从 2013 年秋,google 开始设立 app indexing 将移动 app 内的数据纳入整个索引内。现在已经有 15% 的 android 登录用户可获得含 app 内信息的搜索结果。但是 ios app 是一个很大的坑。
目前抓取 app 信息的挑战尚未影响 google 的搜索统治地位。google 每天接受的搜索查询超过 30 亿次,每年执行的搜索超1万亿次。美国 2/3 的搜索用的是 google,在全球其他地区(中国除外)情况类似。最近 google 搜索份额的变化只是因为yahoo跟firefox的默认搜索引擎交易导致的。而且 google 还拿到了 80% 的移动搜索份额。2013 年 google 出现了 5 分钟的中断的结果是全球流量下挫了 40%!
尽管搜索不是外界关注 google 的热点,但它本身却正在进行稳步而密集的再造。实际上 17 年的时间里 google 从未停止对搜索的改进,但最近几年 google 搜索变革的速度明显加快,为的是保持领先优势。
其中的一些变化用户已经有所体会。搜索更快了、内容更新了、更加社会化了、结果呈现更加丰富了。这些变化不是一夜之间完成的,而是 google 持续不断的升级改进的结果。google 每周都要开搜索质量协调会,对算法进行微调。每 2、3 年都要对排名系统进行重大升级,最近一次的代号为 hummingbird。据称过去 3 年排名系统进行的改动要比此前 13 年的加起来还要多。
google 搜索的变革主要体现在三个方面:知识图、语音搜索和 google now。知识图把全球的信息组织为一个浩瀚的数据库;语音搜索把口语吸收进了搜索;而 google now 则提供了未问先答的能力。这三大变化都与 google 聚焦于移动有关。
知识图(knowledge graph)
知识图谱的推出源自对 metaweb 的收购。metaweb 2005 年由知名计算机科学家与创业者 danny hillis 创办,2007 年推出。做的是语义网。metaweb 做的事情也是通过扫描互联网去回答问题,它拥有 1200 条人、地点与事物的实体记录,一度被认为是 google 的竞争对手。不过最终 hillis 意识到只有在 google 的大树下自己搭建全球信息数据库的宏伟目标才能实现。而彼时尽管 google 也提供了一些问题(比方说奥巴马生日)的直接答案,但是却无法回答“西海岸学费低于 3 万美元的大学”、“至少获得过一次奥斯卡奖的年龄超过 40 的演员”这样的问题。双方一拍即合。
google 意识到,事物是搜索的重要部分,而让大众关心的事物的事实与信息迅速呈现是一种很好的方式。于是在 metaweb 的基础上,2012 年 5 月,google 推出了提供搜索主体关键事实的知识图作为搜索的辅助呈现在搜索结果页面的右侧。现在它的条目已经超过了 5 亿。那么那些搜索结果会出现知识图呢?google 会将查询词条扩展为其他形式和同义词等等,然后进行算法测试看看是否与知识图(knowledge graph)结果相关,确定相关后再从中择取相关结果呈现(比方说敲“达芬奇”试试)。根据估计,目前约有 25% 的搜索可唤出知识图。
在 google 搜索与知识图整合的这 2 年多的时间里,知识图也在不断演变。原先它是静态的,但现在正慢慢吸纳 google 搜索本身在分析用户行为方面的学习能力。比方说“谁在《太空炮弹》中饰演 barf?”这样的问题问多了以后,知识图就知道要把演员、电影和情节等东西列进去。
此外在知识的新鲜度方面知识图也有了大幅改进。以往知识的更新最长可能需要 2 个星期。但现在系统已经能处理新闻,所以更新调整只需要几分钟。
当然,google 的改进计划还有很多。包括增加知识域(最近添加了汽车、视频游戏、雨果文学奖得主),提供除简单事实以外更加复杂的、更主观性、模糊化的搜索结果。用户的兴趣点就是改进的出发点。而 google 最终想要实现的效果是,让你不仅觉得跟你对话的不是冰冷的机器,而是既无所不知又懂附庸风雅的圣人。
但这个目标目前还有点遥远。令产品经理 emily moxley 恼火的是,尽管现在知识图已经知道一些电视节目,但却既缺乏新剧集的信息,也不知道什么时候上映,在哪里能够看到。在知识图成为圣人之前,google 需要要先实现这一“中期目标”。
或者这个要求还有点高。因为 4 年时间过去了,google 至今仍未给出上述那两个类似问题(“西海岸学费低于 3 万美元的大学”、“至少获得过一次奥斯卡奖的年龄超过 40 的演员”)的一站式的答案。知识图,任重而道远啊。
语音搜索
在意识到移动技术即将变得无所不在后,google 决定对搜索进行一个微妙但同时又是巨大的变动。它不再把查询视为提交给计算机系统的指令,而是把所有的输入当作是对话。而在这里面,交互方式比输入更自然的语音将起到非常重要的作用。
这种改变并不仅仅是搜索引擎处理查询方式的改变,也需要用户在思想上做出改变。就像以前 google 教育用户要以查询的方式组织搜索一样,现在 google 需要用户以对话的方式进行思考。不过显然后面这种方式并不需要太多的教育,因为这是我们自然的交互方式。
实现这一变动需要两方面的举措。首先是搜索引擎必须更仔细地倾听,甚至要解析含糊不清的语音输入,这种能力此前只有人类才具备。然后 google 还需要确保人对着手机说话或在搜索框输入口语化文字时系统知道人在说什么。
google 攻关语音识别技术已有好些年头。2000 年代中期时,google 曾推出过一个名为google 411的服务,做的事情跟电话公司一样,就是给客户提供电话查询系统,不同的是后者是付费的。而 google 的收获是通过数百万的免费电话学习如何正确解析多语种多口音的语音。但是 google 无法获得其所需的 2500 条短语在一部分地区的样本,于是 google 就直接派人去到哪些地方采样。
付出终于获得回报—google 搜索可兼容 159 种语言,而语音搜索现在已能识别其中的 59 种。公司宣称,其“单词错误率”已经降到了 8%。
amit singhal 的副手 ben gomes 以自己为例演示了 google 取得的里程碑式进展。这位印度出生的工程师发音不太标准,在上述行动前,他是没有机会亲自演示 google 的语音识别能力的,以往 google 都是派一位发音纯正深受机器青睐的专家来做演示的。不过现在 gomes 跟那位家伙已经失去了联系。“他已经变得可有可无了。我就可以做演示。哪怕你让我站在记者前进行查询我也不怕。”
此外,google 还需要考虑让手机给人回话。它应该用哪一种嗓音呢?像siri那样拟人化?还是用一种可辨识的机器人语音来让用户意识到对自己正在跟系统(而不是人造人)对话?google选择了后者。其首席搜索设计师 wiley 说,为了避免造成与有意识的实体对话的幻觉,你需要自动化一种皮克斯级的叙事能力。“我认为我们与计算机可以唤起人性到人类感到舒服的地步仍有很长一段距离。”
但是技术的发展很快,足以为 google 提供一种高级的语音交互能力。gomes 认为,语音识别能力的提高得益于计算机的处理速度变快、硬件变好以及软件算法的改进,但是最大的变化是 google 对语言的理解能力提升了。
头衔为搜索部门“著名研究科学家”的 fernando pereira 研究自然语言处理(nlp)已有 30 个年头。过去几年,在如何将搜索查询与网上的文档及其他信息集匹配上 google 已经解决得相当好,但是像 knowledge graph 这样得数据库的引入给搜索引擎带来机遇的同时也带来了挑战。pereira 说:“你使用的语言是否与数据库的设计方式匹配变得更加难以判断。”
比方说,google 会收到这样的查询:“巨人队在哪里打比赛?”虽然是短短的一句话,但引擎需要了解大量信息:这涉及到了体育,某支队伍打的是主场等等。然后它还得做出选择,这里指的是棒球队还是橄榄球队?用户是想知道这支队伍的主场体育场还是像了解它下周去哪里打比赛?google 通过信号和此前的用户行为去构建答案。这些理解、判断、推理都是几年前 google 没有做过的。
一旦清除了这些障碍,google 的 nlp 系统就能从知识图中获得更大的推力,开始逐渐理解世界。包括在用户措辞不佳甚至表达混乱的情况下揣摩用户想问什么。比方说用户在手机上输入“戴维▪卡梅伦”时系统已经知道这两个词是配对的,知道这是一个人—然后赋予代词“他”。哪怕麦克风捕捉不到姓氏,知识图也能断定这位英国总理是主题。
google懂得越多,就能更好地理解你
2004 年,我问 larry page 和 sergey brin 对搜索的长期愿景是什么。larry说,搜索应该被包含进人的大脑里。“当你思考某件东西时如果不太了解的话,你可以自动获得信息。” sergey 指出,关键点在于:“你有对话的设备,或者留意周围发生的事的计算机,从而可以提供有用的信息。”
2010 年,两位 android 工程师 baris gultekin 和 andrew kirsme 倒腾的一个“20%(注:google 的 70/20/10 时间分配原则)”项目跟这一愿景的精神非常一致,于是就诞生了后来的 google now。
根据 gultekin 的说法,目前的 google now 与他们最初的设想也保持着高度的一致。“其核心观点是你现在的手机并不智能,但是是可以做到智能的,”他说:“如果我们能够把可感知、可连接的强大设备与 google 的威力结合到一起的话会怎样?”
换言之,google now 可回答你太懒或没时间问的查询。这意味着要通过多领域信息的结合来处理某件重要的事。gultekin 说一开始要建立这样一套系统去做这样的事是很恐怖的,但他和伙伴先把目标分解成一个领域,通勤。但即便这样一件有限的事情也需要系统具备大量的知识:家和办公室的位置,最佳往返路线,交通模式。当然,google maps(以及后来的 waze)知道如何导航是关键。google 调用所有的力量去增强这一搜索工具。不久之后,他们有了一款可靠的 app 来帮助通勤者。“不过我们不希望这只是一款通勤 app,” gultekin 说:“我们希望它成为一位主动的助手,能帮助处理很多事情。”2012 年 7 月,google now 发布,当时具备 7 个领域知识:通勤、飞行、体育、附近地方、旅游、公交以及天气。现在 google now 的领域已经增加到 70 个,且还在快速增长。“我希望 google now 能够提供你所需的大部分信息,其他的 app 只有在 google now 没有你所需的东西时才用,” gultekin 说。
google now的效率取决于对世界的深度知识(这个google搜索和知识图可以提供)与大量个人信息的整合。这正是为什么有人会提出搜索的这个子集实际上是 google 本身的借代:每次它都会提供一张即时信息“卡片”。google now 吸收了一大批的 google 服务。一张典型的卡片往往结合了个人邮件、日程表、通信录、交通安排、交通信息以及天气等信息。
大家往往不知道 google now 是做什么的,直到它做了。比方说,你停车时,google now 会记录下你停止行驶了,并记住你在什么地方离开了车子—以防你忘了车子停在哪里。如果邮件告诉 google now 你在找房子,它可能就会推送一些你希望居住地区的待售房产。
随着 google now 的不断演变,现在它已经从 20% 项目变成了全职服务。不过给 google now 的发展提供最大动力的也许是苹果。2011 年,苹果发布了 siri,给 google 总部造成了一点点的恐慌,从而加大了这一语音助手项目的投入。随后它变成了搜索部门的官方组成部分,尽管团队仍同时分属搜索和 android。当然这种安排也是合适的,除了推送给用户的非查询消息外,所有的个人信息最终都会为登录用户的搜索框所利用(目前可做到“送我上班要多久?”很快将实现“我的车在哪里?”)。搜索和 google now 非常具有互补性,gultekin 说:“我们希望在你开始搜索前就提供信息,但还是会有很多情况是我们不知道的,比方说你的水管爆了,你需要管道工。” (当然,未来通过 google 收购的智能家庭平台 nest,google 有可能会知道这一点的。)
与旧版搜索相比,google now化的搜索只有在使用全系google产品时才能发挥最大效用。“larry 有个说法—‘搜索应该理解你的意思并提供你想要的东西,’” yehoshua 说:“这是一个 google 生态体系—如果你登录手机和桌面,我们可以利用这一点。如果你希望获得飞行信息,跟踪包裹以及任何我们可从 gmail 获得的信息,你都可以得到。如果你不用 gmail(当然你不会),你仍然可以获得我们丰富的语音和回答等等。”
没有绕行方式—如果你想用 google,但 gmail 不是你的首选,那就无法获得 google now 或甚至 google 搜索的全部价值。“生活在一个我们能够分享所有这些信息的世界里将是非常美好的,” yehoshua 说:“我不认为明天就会实现。苹果做起来会好点,但我们实现会更加困难。”
google有意识地不把google now当作独立产品。相反,它把now包含进搜索app里面。而app本身也不叫“搜索”,很简单,就叫“google”。这种取名方式不仅说明了搜索与google关系之紧密,也说明了google now对公司的重要。
尽管如此,google now 组件还是可选的。使用前 google 会提出隐私方面的警告,而该产品的无所不知也可能会成为令人不安的提醒器,告诉我们这家巨头对我们的了解有多少。google 掌握我们的个人信息越多,它惹上的麻烦也越多—尤其是在欧洲,加强监管、巨额罚款甚至解体威胁一个没落,其服务我们的抱负也许会被对隐私的担忧挫败。哪怕是那些相信 google 的人,在斯诺登披露政府如何轻易获得我们的信息之后也无法淡定了。如果 google now 知道你在哪里停的车的话,当地的情报机构是不是也一样知道?
amit singhal 认为,第一代搜索是在人与远端机器的交互之间隔着一道墙。而我们逐步进入的搜索新时代将会打破这堵墙,这与把移动设备当作电子人化的附体是同步的。我们预期手机会知道我们的意思。我们预计搜索既精通于提供包含我们个人信息的答案,又能从网页、文档及公共数据库中挖掘事实。
“我把搜索视为一切计算的接口,”singhal 说:“设备消失或最小化或融入环境之后,你又如何跟它们交互呢?因为大多数时候,你需要采取行动—或者简单如播放音乐,或者复杂点,写备忘录提醒自己来到小卖部附近时记得买牛奶。或者你会有‘我老婆的航班是否准时?’或者“奥巴马有多高?”之类的问题”
大家也许会把过去当作理所当然—抱怨 google 搜索已经不像以前那样。但 singhal 指出,google 搜索已经越过了那道横亘在他面前几十年的障碍。“作为一名研究人员我攻关了 20 年都没有成功,”singhal 说。他指的就是他的团队在 google 搜索上面所取得的成就。但他也承认,还有比现在多得多的问题有待解决。但在描述某类他不再失败的查询背后的科学时,他的声音充满了自豪。对了,那个问题就是:天为什么是蓝的?
www.baidu.com
www.bing.com
www.google.com.hk
www.google.com.sg
原文发布时间为:2015-01-26
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“bigdatadigest”微信公众号