天天看点

Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了

作者:CSDN
Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了

作者 | 屠敏

出品 | CSDN(ID:CSDNnews)

今年的 5 月宛如梦回 2023 年的 3 月,一场场热闹的 AI 盛宴相继开席。

不过,不知是有意还是无意,去年 3 月,Google 选择开放大语言模型 PaLM API 之际,几乎在同一时间 OpenAI 释出最强模型 GPT-4 惊艳四座,此外仅时隔几天后,微软又在一场发布会上官宣自家 Office 全家桶被 GPT-4 革新,导致 Google 似乎成为被众人忽视的存在。

些许尴尬的是,今年同样的情形似乎正在上演,一方面 OpenAI 于昨日凌晨带来了全面升级的旗舰级 GPT4o 作为本月 AI 小春晚的开场,另一方面微软将于下周召开 Bulid 2024,那么,这一次再次遭到夹击的 Google 能否逆风翻了其两家“组的局”,我们将从今日凌晨开幕的 I/O 2024 开发者大会中窥见一斑。

今年的 I/O 大会也是 Google 旗帜鲜明地推行“AI First”战略的第八个年头。

Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了

亮点抢先看

正如此前所料,在这场时长近 2 小时的 Keynote 上,「AI」是贯穿 I/O 大会全场的关键词,只是没想到的是,它被提及的次数能高达 121 次,也不难看出 Google 对 AI 的焦虑了。

Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了

面对外部来势汹汹的竞争对手,Google CEO Sundar Pichai(桑达尔·皮查伊)近日在做客一档节目时表示,「AI 目前还处于发展的早期阶段,相信谷歌最终将赢得这场战争,正如谷歌当初并不是第一家做搜索的公司」。

在 I/O 发布会现场,Sundar Pichai 同样强调了这一点,「我们仍处于人工智能平台转变的早期阶段。对于创作者、开发者、初创公司和每个人来说,我们看到了巨大的机遇。」

Sundar Pichai 表示,去年发布 Gemini(双子座)时,它的定位便是多模态的大模型,可以跨文本、图像、视频、代码等进行推理。今年 2 月,Google 发布了 Gemini 1.5 Pro,在长文本方面实现了突破,将上下文窗口长度扩展到 100 万个 tokens,比任何其他大规模基础模型都要多。如今,超过 150 万的开发者在 Google 工具中使用 Gemini 模型。

在发布会上,Sundar Pichi 分享了 Google 内部的最新的进展:

  • Gemini 应用程序现在已上线 Android 和 iOS 系统。通过 Gemini Advanced,用户可以访问 Google 最强大的模型。
  • Google 将向全球所有开发者推出 Gemini 1.5 Pro 的改进版本。此外,今天拥有 100 万个 token 上下文的 Gemini 1.5 Pro 现在可以直接在 Gemini Advanced 中供消费者使用,它可以跨 35 种语言使用。
  • Google 将 Gemini 1.5 Pro 上下文窗口扩展到了 200 万个 tokens,并以私人预览版的形式提供给开发人员。
  • 虽然我们还处于 Agent 的早期阶段,但是 Google 已经开始先行探索,尝试了 Project Astra,通过智能手机摄像头分析世界,识别及解释代码、帮助人类寻找眼镜、还能辨别声音...
  • 比 Gemini 1.5 Pro 更轻量级的 Gemini 1.5 Flash 发布,针对低延迟和成本等重要的任务进行了优化。
  • 可制作“高质量” 1080p 视频的 Veo 模型和文本生成图像模型 Imagen 3 发布;
  • 采用全新架构、27B 大小尺寸的 Gemma 2.0 来了;
  • Android,第一个包含内置设备基础模型的移动操作系统,深度集成了 Gemini 模型,成为以 Google AI 为核心的操作系统;
  • 第六代 TPU Trillium 发布,与上一代 TPU v5e 相比,每个芯片的计算性能提高了 4.7 倍。
Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了

Google “杀疯了”,多款模型齐发

都说做大模型的很“卷”,没想到在加速赶超的路途中,Google 的“卷”远超乎想象。在发布会上,Google 不仅对过往的大模型进行了升级,还发布了多款新模型。

Gemini 1.5 Pro 升级更新

去年发布 Gemini(双子座)时,Google 对它的定位便是多模态的大模型,可以跨文本、图像、视频、代码等进行推理。今年 2 月,Google 发布了 Gemini 1.5 Pro,在长文本方面实现了突破,将上下文窗口长度扩展到 100 万个 tokens,比任何其他大规模基础模型都要多。

发布会上,Google 首先对 Gemini 1.5 Pro 一些关键用例进行了质量改进,例如翻译、编码、推理等,可以处理更广泛、更复杂的任务。1.5 Pro 现在可以遵循一些复杂和细致的指令,包括指定涉及角色、格式和风格的产品级行为的指令。也可以让用户能够通过设置系统指令来控制模型行为。

同时,Google 在 Gemini API 和 Google AI Studio 中添加了音频理解,因此 1.5 Pro 现在可以对 Google AI Studio 中上传的视频的图像和音频进行推理。

更值得注意的是,如果说 100 万 token 的上下文已经足够长了,就在今天,Google 进一步拓展它的能力,将上下文窗口扩展到 200 万个 token,并以私人预览版的形式提供给开发人员,这意味着其朝着无限上下文的最终目标迈出了下一步。

Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了

要访问具有 200 万 token 上下文窗口的 1.5 Pro,需要加入 Google AI Studio或适用于 Google Cloud 客户的 Vertex AI 中的候补名单。

更轻量级的新模型 Gemini 1.5 Flash

Gemini 1.5 Flash,这是一款专为扩展而打造的轻量级型号,也是 API 中速度最快的 Gemini 型号。它针对低延迟和成本最重要的任务进行了优化,服务成本效益更高,并具有突破性的长上下文窗口。

Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了

虽然它比 1.5 Pro 模型重量更轻,但能在海量信息中进行多模态推理。默认情况下,Flash 也是具有 100 万个 token 上下文窗口,这意味着你可以处理一小时的视频、11 小时的音频、超过 30,000 行代码的代码库或超过 700,000 个单词。

Gemini 1.5 Flash 擅长做摘要、聊天、图像和视频字幕、从长文档和表格中提取数据等。这是因为 1.5 Pro 通过一个名为“distillation”(蒸馏)的过程对其进行了训练,将较大模型中最重要的知识和技能转移到更小、更高效的模型中。

Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了

Gemini 1.5 Flash 的价格定为每 100 万个token 35 美分,这比 GPT-4o 的每 100 万个token 5 美元的价格要便宜一些。

Gemini 1.5 Pro 和 1.5 Flash 均已推出公共预览版,并在 Google AI Studio 和 Vertex AI 中提供。

Google 第一个视觉语言开放模型 PaliGemma 现已推出

PaliGemma 是一个功能强大的开放式 VLM(视觉语言模型),灵感来自 PaLI-3。PaliGemma 基于 SigLIP 视觉模型和 Gemma 语言模型等开放组件构建,旨在在各种视觉语言任务上实现一流的微调性能。这包括图像和短视频字幕、视觉问答、理解图像中的文本、对象检测和对象分割。

Google 表示,为了促进开放探索和研究,PaliGemma 可通过各种平台和资源获得,你可以在 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和 ai.nvidia.com(使用 TensoRT-LLM 加速)上找到 PaliGemma,并通过 JAX 和 Hugging Face Transformers 轻松集成。

Gemma 2 发布

全部发布 Gemma 2 将提供新尺寸,并采用专为突破性性能和效率而设计的全新架构。Gemma 2 具有 270 亿个参数,其性能可与 Llama 3 70B 相媲美,但尺寸却只有 Llama 3 70B 的一半。

Google“反击战”,一夜放出近10款模型!上下文窗口卷到200万tokens、发布Sora竞品Veo、Android也变身了

据 Google 透露,Gemma 2 的高效设计使其所需的计算量少于同类模型的一半。27B 模型经过优化,可以在 NVIDIA 的 GPU 上运行,也可以在 Vertex AI 中的单个 TPU 主机上

继续阅读