谷歌搜索引擎问世 25 年最大更新之一，“AI Overviews”体验正式上线｜懂点AI

掌握AIGC脉动，把握科技脉搏。动点科技每天收集汇总全球AIGC进展与热点，每天5分钟带您了解AIGC，希望与您共同玩转 AIGC，解码行业发展新风向，开启智慧新时代！

文｜动点科技排版｜高竹本文预计阅读时长5分钟

文生图技能再进化，谷歌推出 Imagen 3：更准确、更具创造性谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布推出了 Imagen 3，进一步增强了文本生成图片的技术能力。与前代产品 Imagen 2 相比，Imagen 3 能更准确地理解文字提示，并将其转化为图像，而且其生成的图像更具“创造性和细节”，且模型产生的干扰元素和错误也更少。为了打消人们对 Deepfake 可能性的担忧，谷歌表示，Imagen 3 将使用 DeepMind 开发的 SynthID 方法，在媒体上应用隐形加密水印。用户可以在谷歌的 ImageFX 工具中可以注册 Imagen 3 的私人预览版，谷歌表示，该模型将很快提供给使用谷歌企业生成式人工智能开发平台 Vertex AI 的开发人员和企业客户。

谷歌搜索引擎问世 25 年最大更新之一，“AI Overviews”体验正式上线谷歌公司在今天召开的 2024 年 I / O 开发者大会上，正式推出了“AI Overviews”搜索体验，将于本周开始向美国地区开放，后续会推广到更多国家和地区。该功能此前称之为Search Generative Experiences，主要是让用户通过提问、聊天的方式进行 AI 搜索。在美国地区，谷歌主要通过和 Reddit 社区合作，解答用户的提问。谷歌表示，它将为美国用户的在线查询提供人工智能生成的答案，这是其搜索引擎 25 年来最大的更新之一。

剑指 Sora，谷歌推出 Veo 文生视频模型：时长超 1 分钟、最高 1080P，支持电影手法OpenAI 三个月前推出文本转视频 Sora，引发了网友、媒体以及圈内人士的广泛讨论。谷歌在今天召开的 2024 I / O 开发者大会上，也推出了对标产品-- Veo，可以生成长度超过 1 分钟，分辨率最高 1080P 的“高质量”视频，并具有多种视觉和电影风格。根据谷歌官方新闻稿，Veo 具备对自然语言有先进的理解能力，能够理解“延时摄影”、“航拍风景”等电影术语。用户可以使用文本、图像或视频提示来指导他们所需的输出，谷歌表示，这样产生的视频“更加连贯一致”，在整个镜头中人物、动物和物体的动作也更加逼真。

对轰 GPT-4o，谷歌推出 Astra 项目：手机镜头内低延迟聊天交互谷歌公司在今天召开的 2024 年 I / O 开发者大会上，推出了全新的 Project Astra 项目，基于 Gemini，可以本地运行在 Pixel 手机上，可以说是对标 OpenAI GPT-4o 的最新模型。谷歌表示 Project Astra 是最新的多模态 AI 项目，用户打开摄像头，该多模态项目可以直接解释用户画面中物品。

字节跳动正式发布“豆包大模型”家族，含通用模型、角色扮演模型、声音复刻模型、语音识别模型、文生图模型等今天上午，字节跳动在 2024 春季火山引擎 Force 原动力大会上正式宣布自家豆包大模型正式开启对外服务。据介绍，豆包大模型包含豆包通用模型 Pro、豆包通用模型 liti、豆包・角色扮演模型、豆包・语音合成模型、豆包・声音复刻模型、豆包・语音识别模型、豆包・文生图模型、豆包・Function Call 模型。除发布字节跳动自研大模型外，字节跳动还宣布火山引擎大模型服务平台——火山方舟也将迎来重大升级。

谷歌预告安卓新功能：AI 检测诈骗电话谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布为安卓系统引入 AI 诈骗电话检测功能，在通话中提醒可能存在的诈骗行为，并鼓励用户结束此类通话。谷歌表示该功能基于本地运行的 Gemini Nano 模型，在通话中匹配查找欺诈性语言和其他通常与诈骗有关的对话模式，如果遇到疑似诈骗的电话，就会发出警报提醒用户。安全方面，谷歌表示，这些新的保护措施完全是在设备上实施的，因此 Gemini Nano 监控的对话将保持私密性。

谷歌 Workspace 办公套件整合 Gemini：可总结邮件内容、梳理会议要点等谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布 Google Workspace 将进一步整合 Gemini，在侧面板中将推出基于 Gemini 1.5 Pro 的诸多技能。谷歌表示 Workspace 整合 Gemini 的作用，是为用户节省从多个应用程序中挖掘文件、电子邮件和其他数据的时间和精力。谷歌 Workspace 的 Gmail、Docs、Sheet、Slides 和 Drive 将率先推出 Gemini 侧面板，可以不在离开应用的情况下，组织、理解应用中的数据，可以总结邮件内容、摘要会议记录等等。

谷歌 Gmail 深度整合 Gemini：汇总邮件内容、生成更好回复谷歌在今天召开的 I / O 2024 开发者大会上，宣布将于下月邀请 Workspace 和 Google One AI Premium 用户，体验新版 Gmail，可以让 Gemini 总结电子邮件内容。谷歌表示用户可以在移动应用和网页版 Gmail 中使用 Gemini，针对当前电子邮件内容提问，或者让 Gemini 根据电子邮件的上下文撰写回复。谷歌目前已经在 Gmail 中引入了 Smart Reply 功能，不过新版中升级带来了“Contextual Smart Reply”，可以基于上下文带来更细致、更优秀的回复。谷歌表示还将会为 Gmail 应用带来全新的 Gemini 按钮，用户点击之后会看到“总结这封邮件”或“建议回复”等建议，用户还可以输入提示来询问有关电子邮件的问题。

谷歌 Gemini 解锁旅行规划技能，几秒内帮你妥当安排行程

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布为 Gemini 引入旅行规划功能，结合个人信息和公共出行信息，帮用户规划预订航班、酒店等等。谷歌表示 Gemini 可以基于用户的提示，挖掘航班时间和酒店预订等具体细节，在几秒钟内制定出合适的度假行程。Gemini 会根据用户电子邮件中包含的航班和酒店详细信息制定行程。该模式还将利用谷歌地图查找附近的餐馆和文化景点，并根据特定提示（如饮食限制或应避免的事项）过滤出各种选择。谷歌表示，新的旅行计划功能将在未来几个月内登陆 Gemini Advanced。

iOS 版 ChatGPT 更新支持 App 首选语言设置中文iOS 版本 ChatGPT 今日凌晨发布 1.2024.129 版本更新，新增支持 App 首选语言设置中文，此前为其他语言。首次启动 iOS 版 ChatGPT 会出现中文展示页，App 内支持应用语言设置，点击后将跳转至系统设置中 ChatGPT 应用设置，再次点击首选语言，即可设置软件语言。

百度发布全球首个 L4 级自动驾驶大模型 Apollo ADFM，称比人类驾驶更安全

百度 Apollo 今天在武汉百度萝卜快跑汽车机器人智行谷举办 Apollo Day 2024，发布了全球首个支持 L4 级自动驾驶的大模型 Apollo ADFM（Autonomous Driving Foundation Model）。百度称，Apollo ADFM 基于大模型技术重构自动驾驶，可以兼顾技术的安全性和泛化性，做到安全性高于人类驾驶员 10 倍以上，实现城市级全域复杂场景覆盖。依靠自动驾驶大模型的应用实践️，百度萝卜快跑已经攻克了武汉的复杂道路场景，实现了武汉城市全域、全时空场景覆盖。同时在 L2 + 智能驾驶领域，目前国内唯一的纯视觉城市领航辅助驾驶产品 ANP3 也将全面应用自动驾驶大模型 Apollo ADFM，升级为 ASD（Apollo Self-Driving），即将在极越全系车型量产首发，率先实现“智驾全国都能开、有百度地图的地方都能开”。

本文为动点科技整理，未经授权不得转载，如需转载或开白请在后台回复“转载”。

- - - - - - - - END - - - - - - - -

*想要获取行业资讯、和志同道合的科技爱好者们分享心得，那就赶快扫码添加“动点君”加入群聊吧！群里更有不定期福利发放！

精彩好文值得推荐！

一键转发，戳个在看！