谷歌Gemini 1.5 Pro升级至200万token，宣布面向全球开发者开放

当地时间 5 月 14 号下午，谷歌在美国山景城召开了年度 I/O 开发者大会。

在 110 分钟的时间里，人工智能（AI）这个关键词被提到了 121 次，展现了谷歌在人工智能领域全力以赴的姿态和显而易见的野心。

作为谷歌的旗舰模型，Gemini 及其各种迭代版本悉数亮相，抢尽了风头。谷歌正在将其整合到几乎所有自家产品中，包括安卓系统、搜索、浏览器和 Gmail 等等，各种演示看的人眼花缭乱。

此前，谷歌 Gemini 共有三个版本，分别是 Ultra、Pro 和 Nano，尺寸不同，性能不同，应对的场景也有所差异。

现在，谷歌在大会上又推出了新版本，Gemini 1.5 Flash。谷歌表示，新的多模态模型与 Gemini 1.5 Pro 一样强大，但它针对“高频、低延迟的任务”进行了优化。这使得它能够更好地产生快速响应。

谷歌Gemini 1.5 Pro升级至200万token，宣布面向全球开发者开放

（来源：谷歌）

谷歌还对 Gemini 1.5 进行了一些升级，据称这将提高其翻译、推理和编码的能力。此外，谷歌表示，它已将 Gemini 1.5 Pro 的上下文窗口（可以接收的信息量）增加了一倍，从 100 万个 token 增加到 200 万个。

目前，Gemini 1.5 Pro 和 1.5 Flash 均已开放公共预览版。谷歌还披露，目前 Gemini 的开发者已经超过 150 万，超过 20 亿用户体验到了 Gemini 的强大。

在 Gemini 的加持下，多款谷歌产品迎来了新功能。比如，谷歌照片将于今年晚些时候新增 Ask Photos 功能，现在可以更好地搜索照片，识别不同的照片背景，甚至是根据车牌号寻找照片或者回答其他关于照片内容的问题。

谷歌 CEO 桑达尔·皮查伊（Sundar Pichai）在台上表示，Gemini 可以“将任何输入转化为任何输出”。这意味着它可以从文本、照片、音频、社交或网络视频以及手机摄像头的实时视频中提取信息，整合这些信息，最后总结其中的内容并回答问题。

谷歌展示了一段演示视频，视频中的人用相机扫描了书架上的所有书籍，并将书名记录在数据库中以便稍后识别。

（来源：谷歌）

谷歌在大会上宣布的另一个重头戏，是将于今年晚些时候推出一款名为 Astra 的新系统，并承诺它将成为谷歌迄今为止推出的最强大、最先进的人工智能助手。

当前一代的人工智能助手，例如 ChatGPT，可以检索信息并提供答案，但其本领仅限于此。但今年，谷歌将其虚拟助手（assistants）重新命名为更先进的“代理（agents）”，据称可以具备推理、计划和记忆技能，并能够采取多个步骤来执行任务。

谷歌 DeepMind 研究副总裁奥里奥尔·维尼亚尔斯（Oriol Vinyals）告诉《麻省理工科技评论》，人们将能够通过智能手机甚至台式电脑使用 Astra，但该公司也在探索其他选择，例如将其嵌入智能眼镜或其他设备中。

值得一提的是，在 I/O 大会播放的演示视频中，眼尖的观众捕捉到了疑似谷歌眼镜原型的设备。这意味着谷歌或许重新启动了早年失败的智能眼镜项目。

（来源：Sean Hollister / The Verge ）

“我们正处于（人工智能代理开发）的早期阶段。”谷歌 CEO 皮查伊在 I/O 大会之前的电话会议上表示。

“我们一直希望构建一个在日常生活中有用的通用智能体。”谷歌 DeepMind 的 CEO 兼联合创始人戴米斯·哈萨比斯（Demis Hassabis）说道。

“想象一下，这些代理可以看到和听到我们所做的事情，更好地了解我们所处的环境，并在对话中快速做出反应，从而使交互的速度和质量更加自然。”他补充说，“这就是 Astra 未来的样子。”

谷歌召开 I/O 大会的前一天，其竞争对手 OpenAI 推出了自己的超级人工智能助手 GPT-4o。谷歌 DeepMind 的 Astra 对音频和视频输入的响应方式与 GPT-4o 非常相似。

在谷歌的演示视频中，一名用户将智能手机摄像头和智能眼镜对准物体，并要求 Astra 解释它们是什么。当用户将设备朝向窗外并询问“你认为我在哪个社区？”时，人工智能系统能够识别伦敦国王十字车站，即谷歌 DeepMind 总部所在地。

它还可以提醒用户眼镜在桌子上，因为它在之前的交互中记录了这一点。

维尼亚尔斯表示，该演示展示了谷歌 DeepMind 对实时多模态人工智能（可以处理多种类型的输入，包括语音、视频、文本等）的愿景。

“我们非常兴奋，在未来，能够真正贴近用户，为用户提供他们想要的任何帮助。”他说。谷歌还升级了其人工智能模型 Gemini，以处理更大量的数据，这一升级有助于它处理更大的文档和视频，并进行更长的对话。

科技公司正在竞争人工智能领域的“霸主”地位，而大型科技公司为了表明他们正在推动技术前沿的发展，人工智能代理成为了它们的“宠儿”。

许多科技公司都把人工智能代理放到了它们的叙事当中，包括 OpenAI 和谷歌 DeepMind。这些公司的目标都是构建通用人工智能（AGI），这是一种关于超级人工智能系统的想法，在很大程度上仍处在设想阶段。

华盛顿大学专门研究在线搜索的奇拉格·沙阿（Chirag Shah）教授表示：“最终，你将拥有一位真正了解你，可以为你做很多事情，并且可以跨多个任务和领域工作的代理。”

这个愿景令人向往，但谷歌今天的发布会是其与对手竞争的最新努力。沙阿表示，通过推出这些产品，谷歌可以从超过 10 亿用户那里收集更多数据，了解他们如何使用模型以及哪些模型有效。

在 I/O 大会上，除了人工智能代理，谷歌还推出了更多新的人工智能功能。

它将通过一项名为人工智能概述（AI overviews）的新功能将人工智能更深入地集成到搜索引擎中，该功能从互联网上收集信息，并将其精炼成简短的摘要展示给用户，作为搜索结果的一部分。该功能已在美国上线，稍后将开放给更多的国家和地区。

路透社新闻研究所人工智能和数字新闻研究员菲利克斯·西蒙（Felix Simon）表示，这将有助于加快搜索过程，并为用户提供针对更复杂、更小众问题的更具体答案。

“我认为这就是搜索一直难以做好的地方。”他说。

谷歌人工智能搜索的另一个新功能是更好的规划。例如，人们很快就可以要求搜索提供餐饮和旅行建议，就像要求旅行社推荐餐馆和酒店一样。

图 | 人工智能帮助解决数学问题（来源：谷歌）

给它一份食谱，Gemini 将能够帮助用户计划需要做什么或者买什么。用户还能与人工智能系统对话，要求它完成许多任务，简单的任务例如告诉他们天气状况，复杂的任务则包括帮助他们准备面试或重要演讲。

人们还可以打断 Gemini 的回应并提出澄清问题，就像和人类对话一样。巧合的是，OpenAI 昨天展示的 GPT-4o 也具备同样的能力。

为了进一步应对竞争对手 OpenAI，谷歌还推出了 Veo，一个新的视频生成人工智能系统。Veo 能够生成短视频，还能理解“延时”或“空中视角拍摄风景”等提示，允许用户更好地控制视频短片的风格。

谷歌在训练视频生成模型方面具有显着优势，因为它有 YouTube。该公司已经宣布与唐纳德·格洛弗（Donald Glover ）和怀克里夫·吉恩（Wycleaf Jean）等艺术家合作，他们正在使用该公司的技术来创作自己的作品。

今年早些时候，当被问及 OpenAI 的模型是否在训练中使用了 YouTube 的数据时，OpenAI的首席技术官米拉·穆拉蒂（Mira Murati）并未给出明确回答。

谷歌 DeepMind 高级研究总监道格拉斯·艾克（Douglas Eck）在接受《麻省理工科技评论》询问时，对于用于创造 Veo 的训练数据也含糊其辞，但他表示“可能会根据我们与 YouTube 创作者的协议，在某些 YouTube 内容上进行训练”。

沙阿表示，谷歌一方面将其生成式人工智能作为艺术家可以用来创作的工具来宣传，但另一方面，这些工具很可能通过使用现有艺术家的作品来学会如何创造新的东西。

谷歌和 OpenAI 等人工智能公司正面临着一系列作家和艺术家的诉讼，声称他们的知识产权在未经同意或付费的情况下被使用。

“对于艺术家来说，这是一把双刃剑。”沙阿说。

最后，为了更好地区分人工智能生成内容和真实内容，谷歌还扩展了其 SynthID 水印工具。它旨在检测人工智能生成的错误信息、深度伪造或网络钓鱼垃圾邮件。

SynthID 会在生成内容中留下难以察觉的水印，人类无法看到，但可以使用分析像素数据的软件检测到。该工具现在可以扫描 Gemini 应用程序上的、网络上的和 Veo 生成的内容。谷歌表示，计划在今年夏天晚些时候将 SynthID 作为开源工具发布。

参考：

https://www.wired.com/story/everything-google-announced-at-io-2024/

https://www.technologyreview.com/2024/05/14/1092407/googles-astra-is-its-first-ai-for-everything-agent/

https://www.theverge.com/2024/5/14/24156518/google-glass-prototype-ar-glasses-io-2024

支持：Ren

排版：罗以

谷歌Gemini 1.5 Pro升级至200万token，宣布面向全球开发者开放

继续阅读

公园缓建官渡区心有不甘，并入文旅项目结合商业开发一起干

科技巨头积极布局AI领域！微软将召开年度开发者大会，或透露人工智能PC计划

期刊精粹 | 基于谨慎城市更新理论的德国柏林滕博尔霍夫机场综合开发模式的启迪【2024.2期】

华为余承东：已有2000多名华为开发者支持OpenHarmony 累计贡献超6200万行核心代码

距中蒙边境仅140公里！澳大利亚在蒙古发现世界最大未开发稀土矿

女子充值百万玩游戏要求退款遭拒，要求开发票时游戏公司已注销

斯巴鲁、丰田、马自达：将开发适应电动汽车时代的新型发动机｜晚报

台积电开发硅晶圆切割新方法

从数据到芯片，开发AI越来越昂贵，只有科技巨头能“玩得起”？

VisualBAT，批处理文件编译程序。专业的批处理BAT开发工具，可以将BAT转成EXE应用程序。它可以帮助你批量处理

开发商“画饼” 佣金返现两年多都没拿到

同人反冲官方！00后游戏开发者凭借奇思妙想，成了“赛博孟德尔”

公布！这78家公司核准为房地产开发一级资质企业

清华与面壁联合开发模型被套壳，两位斯坦福学生作者道歉删除引用

日产将停止开发新内燃机！正式确立电气化战略，你看好吗？

开发商和燃气公司设计不合理，是造成纠纷的主要根源。移出燃气阀门是解决问题的根本。高女士做法没错！