作者 | 屠敏
出品 | CSDN(ID:CSDNnews)
今年的 5 月宛如梦回 2023 年的 3 月,一场场热闹的 AI 盛宴相继开席。
不过,不知是有意还是无意,去年 3 月,Google 选择开放大语言模型 PaLM API 之际,几乎在同一时间 OpenAI 释出最强模型 GPT-4 惊艳四座,此外仅时隔几天后,微软又在一场发布会上官宣自家 Office 全家桶被 GPT-4 革新,导致 Google 似乎成为被众人忽视的存在。
些许尴尬的是,今年同样的情形似乎正在上演,一方面 OpenAI 于昨日凌晨带来了全面升级的旗舰级 GPT4o 作为本月 AI 小春晚的开场,另一方面微软将于下周召开 Bulid 2024,那么,这一次再次遭到夹击的 Google 能否逆风翻了其两家“组的局”,我们将从今日凌晨开幕的 I/O 2024 开发者大会中窥见一斑。
今年的 I/O 大会也是 Google 旗帜鲜明地推行“AI First”战略的第八个年头。
亮点抢先看
正如此前所料,在这场时长近 2 小时的 Keynote 上,「AI」是贯穿 I/O 大会全场的关键词,只是没想到的是,它被提及的次数能高达 121 次,也不难看出 Google 对 AI 的焦虑了。
面对外部来势汹汹的竞争对手,Google CEO Sundar Pichai(桑达尔·皮查伊)近日在做客一档节目时表示,「AI 目前还处于发展的早期阶段,相信谷歌最终将赢得这场战争,正如谷歌当初并不是第一家做搜索的公司」。
在 I/O 发布会现场,Sundar Pichai 同样强调了这一点,「我们仍处于人工智能平台转变的早期阶段。对于创作者、开发者、初创公司和每个人来说,我们看到了巨大的机遇。」
Sundar Pichai 表示,去年发布 Gemini(双子座)时,它的定位便是多模态的大模型,可以跨文本、图像、视频、代码等进行推理。今年 2 月,Google 发布了 Gemini 1.5 Pro,在长文本方面实现了突破,将上下文窗口长度扩展到 100 万个 tokens,比任何其他大规模基础模型都要多。如今,超过 150 万的开发者在 Google 工具中使用 Gemini 模型。
在发布会上,Sundar Pichi 分享了 Google 内部的最新的进展:
- Gemini 应用程序现在已上线 Android 和 iOS 系统。通过 Gemini Advanced,用户可以访问 Google 最强大的模型。
- Google 将向全球所有开发者推出 Gemini 1.5 Pro 的改进版本。此外,今天拥有 100 万个 token 上下文的 Gemini 1.5 Pro 现在可以直接在 Gemini Advanced 中供消费者使用,它可以跨 35 种语言使用。
- Google 将 Gemini 1.5 Pro 上下文窗口扩展到了 200 万个 tokens,并以私人预览版的形式提供给开发人员。
- 虽然我们还处于 Agent 的早期阶段,但是 Google 已经开始先行探索,尝试了 Project Astra,通过智能手机摄像头分析世界,识别及解释代码、帮助人类寻找眼镜、还能辨别声音...
- 比 Gemini 1.5 Pro 更轻量级的 Gemini 1.5 Flash 发布,针对低延迟和成本等重要的任务进行了优化。
- 可制作“高质量” 1080p 视频的 Veo 模型和文本生成图像模型 Imagen 3 发布;
- 采用全新架构、27B 大小尺寸的 Gemma 2.0 来了;
- Android,第一个包含内置设备基础模型的移动操作系统,深度集成了 Gemini 模型,成为以 Google AI 为核心的操作系统;
- 第六代 TPU Trillium 发布,与上一代 TPU v5e 相比,每个芯片的计算性能提高了 4.7 倍。
Google “杀疯了”,多款模型齐发
都说做大模型的很“卷”,没想到在加速赶超的路途中,Google 的“卷”远超乎想象。在发布会上,Google 不仅对过往的大模型进行了升级,还发布了多款新模型。
Gemini 1.5 Pro 升级更新
去年发布 Gemini(双子座)时,Google 对它的定位便是多模态的大模型,可以跨文本、图像、视频、代码等进行推理。今年 2 月,Google 发布了 Gemini 1.5 Pro,在长文本方面实现了突破,将上下文窗口长度扩展到 100 万个 tokens,比任何其他大规模基础模型都要多。
发布会上,Google 首先对 Gemini 1.5 Pro 一些关键用例进行了质量改进,例如翻译、编码、推理等,可以处理更广泛、更复杂的任务。1.5 Pro 现在可以遵循一些复杂和细致的指令,包括指定涉及角色、格式和风格的产品级行为的指令。也可以让用户能够通过设置系统指令来控制模型行为。
同时,Google 在 Gemini API 和 Google AI Studio 中添加了音频理解,因此 1.5 Pro 现在可以对 Google AI Studio 中上传的视频的图像和音频进行推理。
更值得注意的是,如果说 100 万 token 的上下文已经足够长了,就在今天,Google 进一步拓展它的能力,将上下文窗口扩展到 200 万个 token,并以私人预览版的形式提供给开发人员,这意味着其朝着无限上下文的最终目标迈出了下一步。
要访问具有 200 万 token 上下文窗口的 1.5 Pro,需要加入 Google AI Studio或适用于 Google Cloud 客户的 Vertex AI 中的候补名单。
更轻量级的新模型 Gemini 1.5 Flash
Gemini 1.5 Flash,这是一款专为扩展而打造的轻量级型号,也是 API 中速度最快的 Gemini 型号。它针对低延迟和成本最重要的任务进行了优化,服务成本效益更高,并具有突破性的长上下文窗口。
虽然它比 1.5 Pro 模型重量更轻,但能在海量信息中进行多模态推理。默认情况下,Flash 也是具有 100 万个 token 上下文窗口,这意味着你可以处理一小时的视频、11 小时的音频、超过 30,000 行代码的代码库或超过 700,000 个单词。
Gemini 1.5 Flash 擅长做摘要、聊天、图像和视频字幕、从长文档和表格中提取数据等。这是因为 1.5 Pro 通过一个名为“distillation”(蒸馏)的过程对其进行了训练,将较大模型中最重要的知识和技能转移到更小、更高效的模型中。
Gemini 1.5 Flash 的价格定为每 100 万个token 35 美分,这比 GPT-4o 的每 100 万个token 5 美元的价格要便宜一些。
Gemini 1.5 Pro 和 1.5 Flash 均已推出公共预览版,并在 Google AI Studio 和 Vertex AI 中提供。
Google 第一个视觉语言开放模型 PaliGemma 现已推出
PaliGemma 是一个功能强大的开放式 VLM(视觉语言模型),灵感来自 PaLI-3。PaliGemma 基于 SigLIP 视觉模型和 Gemma 语言模型等开放组件构建,旨在在各种视觉语言任务上实现一流的微调性能。这包括图像和短视频字幕、视觉问答、理解图像中的文本、对象检测和对象分割。
Google 表示,为了促进开放探索和研究,PaliGemma 可通过各种平台和资源获得,你可以在 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和 ai.nvidia.com(使用 TensoRT-LLM 加速)上找到 PaliGemma,并通过 JAX 和 Hugging Face Transformers 轻松集成。
Gemma 2 发布
全部发布 Gemma 2 将提供新尺寸,并采用专为突破性性能和效率而设计的全新架构。Gemma 2 具有 270 亿个参数,其性能可与 Llama 3 70B 相媲美,但尺寸却只有 Llama 3 70B 的一半。
据 Google 透露,Gemma 2 的高效设计使其所需的计算量少于同类模型的一半。27B 模型经过优化,可以在 NVIDIA 的 GPU 上运行,也可以在 Vertex AI 中的单个 TPU 主机上