天天看点

移动UI大模型问世,苹果iPhone或迎升级新周期

作者:狮门
移动UI大模型问世,苹果iPhone或迎升级新周期

资料源:天风证券;作者:潘暕

Ferret UI 提升交互能力,AI 助力苹果开启升级新周期

Ferret UI 通过任意分割 UI 界面实现全貌、细节捕捉,有望颠覆传统 UI 交互方式

Ferret-UI 是一个为移动 UI 定做的大模型(MLLM),具备图片识别、定位和推理功能,有望通过整合于 agent 使用户直接交互操作手机,颠覆 UI 交互方式。Ferret UI 建立于 Ferret 多模态模型基础上,通过图像编码器、空间感知的视觉采样器和语言模型(LLM)架构实现图片精准理解与定位,并集成了"any resolution"(任意分辨率)技术灵活适应各种屏幕纵横比并捕捉细节。通过基础、高级分级训练,Ferret UI 得以具备基本的定位和理解 UI 组件能力以及进阶的 AI 交互推理能力。在与市场主流大模型的综合基准测试中,Ferret UI 在除“查找文本”外的所有初级 UI 任务上超越了 GPT-4V,在iPhone 端高级 UI 任务的平均得分与 GPT-4V 非常相近,并具备一定的不同操作系统之间的迁移能力。

Ferret UI 催化 iPhone 规模出货、有望驱动升级周期,AI 手机拉动上游价值量提升

类比 5G,AI 因其软硬件要求带来较高硬件承接需求,现有手机配置或难以支持 AI 应用,2023 年全球智能手机出货量下降背景下,AI 的高需求或将引领新的换机热潮,催化 iPhone 出货提高;除此之外,AI 将带来继功能手机向智能手机转变后最大的用户交互变革,显著改变市场规模,加快产品升级速度,手机市场格局快速变化下投资者或将面临 AI 驱动的 iPhone 新升级周期。同时 AI 手机对 CPU、存储、无线通信、高频高速 PCB 等软硬件带来更高的要求,我们认为 AI 与手机结合将为上游产业注入新动能、推动潜在市场空间增长。

1. Ferret UI 通过任意分割 UI 界面实现全貌、细节捕捉,有望颠覆传统 UI 交互方式

Ferret-UI 是一个为 AI 手机定做的新大模型(MLLM),以 Ferret 多模型为基础。Ferret-UI吸收了 Ferret 模型在图像定位、理解上的优势,并在此基础上通过“任意分辨率”技术通过任意分割UI界面适应手机的各种横纵比并放大细节,做到将原有优势运用到手机UI上。

通过进行初级/高级的分级训练,Ferret-UI 得以完成图标识别、文本搜索等基础任务乃至交互对话、功能推理等复杂任务。最终 Ferret-UI 能够较好的识别手机应用的界面。并将自然语言翻译为界面操作点。这意味着 Ferret UI 有望颠覆传统 UI 交互方式。

移动UI大模型问世,苹果iPhone或迎升级新周期

将 Ferret UI 与传统 agent(如 Siri)深入整合,用户预计可以直接通过与 AI 交互操作手机。Agent 定义为以大模型为大脑驱动,能自动化执行完成复杂任务的系统。其基础架构可以简单划分为 Agent=大模型+规划技能+记忆+工具使用,其中 Ferret-UI 扮演了 Agent的“大脑”,在这个系统中提供推理、规划等能力。与广为人知的 Chatgpt 相比,Agent多了实际去做的行动能力。在苹果系统中 Siri 即为典型的 agent,如果将 Ferret UI 功能整合在 Siri 上,用户就可以通过自然语言与手机交互控制手机系统和 App 的功能,如语音控制 Siri 直接打开外卖 App 下订单。

1.1. Ferret 模型图像理解和定位方面优势显著,“任意分辨率”技术分割子图像深度理解手机 UI

Ferret 模型能准确理解、定位并描述图像中的具体内容,无论这些内容呈现的形状和位置如何。在这个模型里,苹果提出了一个有着图像编码器、空间感知的视觉采样器和语言模型(LLM)的新架构。图像编码器处理图像输入,空间感知的视觉采样器采取类似处理 3D点云的方法有效地提取不规则形状区域的视觉特征。二者通过结合区域的坐标信息和视觉采样获取的特征实现了一种混合区域表示方法,提高了对图像中不同形状区域的定位与理解能力。最终通过语言模型结合文本引用来理解、描述图像。用户可以基于画面中具体的区域与大模型展开更深入的对话。

移动UI大模型问世,苹果iPhone或迎升级新周期
移动UI大模型问世,苹果iPhone或迎升级新周期

“任意分辨率”技术实现 UI 界面全貌、细节捕捉,Ferret 模型优势得以运用于手机。过往大模型因难以适应屏幕横纵比和细节不足问题难以理解手机 UI。Ferret UI 在 Ferret 模型基础上集成了“任意分辨率(any resolution)”技术来灵活适应各种屏幕纵横比、放大细节并利用增强的视觉特征。该技术加入了额外的细粒度图像特征,其原理是“用放大镜分别观察”:1)将 UI 界面分割成子图像,以更好地捕捉 UI 界面的细节特征。2)预训练过的图像编码器和投影层为整个屏幕和分割出来的所有子图像单独编码,并形成图像特征。

对于具有区域引用的文本,视觉采样器会生成相应的区域连续特征。3)最后统一被输入到大语言模型(LLM),LLM 利用全图表示、子图表示、区域特征和文本嵌入来生成响应。

移动UI大模型问世,苹果iPhone或迎升级新周期
移动UI大模型问世,苹果iPhone或迎升级新周期

1.2. Ferret UI 较市场主流大模型交互水平有较大提升,初级任务表现优异

Ferret UI 几乎所有初级任务超越 GPT-4V,高级任务平均得分与 GPT-4V 非常相近。苹果的团队比较了 Ferret-UI 和 GPT-4V 在所有 UI 任务上的性能:1)简单任务中,无论安卓/苹果系统,除了“查找文本”任务,Ferret-UI 在包括 OCR(图标识别)、查找组件等的所有任务超过了 GPT-4V。2)高级任务中,苹果系统下,在详细描述、感知对话、交互对话和功能推断任务 Ferret-UI 展现了与 GPT-4V 相当的性能,并且在详细描述、功能推断任务上超过了 GPT-4V。值得注意的是,Ferret-UI 的训练数据集不包含特定的安卓数据,但它在安卓平台的高级任务上仍表现出可观的性能,表明模型具有不同操作系统间的 UI 知识迁移能力。

移动UI大模型问世,苹果iPhone或迎升级新周期

2. Ferret UI 有望驱动 iPhone 升级周期,引领规模出货

AI 运用预计催化 iPhone 出货提高,换机潮下投资者或将面临 AI 驱动的 iPhone 新升级周期。AI 技术带来的革新可类比于 5G:1)需要硬件承接,引发换机潮。AI 在硬软件对手机配置有了更高要求,现有手机配置或难支持 AI 使用。IDC 数据显示 2023 年全球智能手机出货量同比下降 3.2%,Canalys 预测对于 AI 能力的需求有望刺激新一轮的换机潮,从而带动 iPhone 规模出货。2)带动新一轮升级周期。AI 将带来继功能手机向智能手机转变后最大的用户交互变革,显著改变市场规模,加快升级速度。截至当地时间 4 月 11 日收盘,据科技记者 Mark Gurman 透露 M4 芯片重点提升 AI 能力后,苹果股价出现近来罕见的飙升,大幅收涨 4.3%,市值一夜暴涨 8113 亿人民币。

移动UI大模型问世,苹果iPhone或迎升级新周期

“AI+手机”已获市场消费者认可,Ferret UI 或将成为关键技术助推苹果布局 AI 手机市场。

AI 成为手机行业“兵家必争”之地,三星等品牌已取得一定成绩。2024 年 1 月,三星率先在新发布的 S24 系列手机中引入全新“Galaxy AI”功能,带来功能与用户体验的提升:1)在语音通话方面基于 AI 与原生通话应用程序,实现通话实时翻译;2)在短信写作等方面写作助手协助用户根据不同场景选择语言风格,同时 AI 翻译为使用者提供 AI文本翻译支持;

3)在笔记方面,“Galaxy AI”的应用同样帮助三星笔记的笔记助手以及转录助手分别实现智能笔记摘要生成以及语音文本转换等功能;4)除此之外 AI 赋能下 S24 系列首创的“即圈即搜”功能以用户手势激发搜索功能,为在线搜索带来历史性的变革。IDC 统计数据显示,相较于 2023 年第四季度,在“Galaxy AI”助力下,2024 年 Q1 三星系列手机全球出货量由2023Q4 的 5310 万部显著提升至 6010 万台,市场份额由 16.8%上升至 20.8%,排名重新上升至首位。以三星系列手机出货量的显著上升作为证明,AI 模型与手机的结合获得了市场消费者的广泛认可,这表明 Ferret UI 与苹果 iPhone 系列手机的结合将同样受到市场青睐。

Ferret UI 昭示了苹果对于 iPhone 手机高级交互控制的探索可能性,以及苹果对于重新定义AI 时代手机的企图心。距离 6 月份的苹果 WWDC 开发者大会剩下不到 2 个月,看好苹果在AI 手机领域的进展。

移动UI大模型问世,苹果iPhone或迎升级新周期

AI 手机对软硬件需求提高,换机潮有望带动相关上游产业进入增长新周期。AI 与手机结合所带来的高需求覆盖手机的各个组成部分:1)计算方面 AI 手机的高算力要求推动 CPU设计思路转向全大核方案;2)存储方面大模型对高速、大容量提出新需求;3)WiFi7 等新技术的产生有望满足 AI 对于数据传输的较高要求,对于高频高速 PCB 的需求同样应运而生;4)而散热方面 AI 手机对电磁屏蔽以及散热的要求显著上升;5)AI 与手机的结合对于电池续航与健康管理同样产生更高的要求。

以存储为例:1)存储有望从“价格”步入“价值”周期。2019-2023 年存储经历了供过于求到超跌这一轮周期变化,以减产控产告终。看好 AI 技术应用激发存储潜能,走出传统价格周期进入新价值周期。2)存储涨价建立信心,为新周期做准备。根据闪存市场数据,NAND 价值已有 80%涨幅,DRAM 价值相对底部也有超 30%涨幅,预计国产模组产品涨价趋势年内具有较好持续性。3)AI 模型本地化,更大的存储容量和带宽为大势所趋,同时考虑到数据安全问题,国产存储厂商重要性凸显。AI 手机将为产业链注入增长新动能,推动潜在市场空间增长。

移动UI大模型问世,苹果iPhone或迎升级新周期
移动UI大模型问世,苹果iPhone或迎升级新周期

3. 建议关注

云端 AI 相关企业:寒武纪、海光信息、龙芯中科、紫光国微、复旦微电、安路科技等。

边/终端 AI 相关企业:瑞芯微、晶晨股份、恒玄科技、全志科技、乐鑫科技、富瀚微、中科蓝讯、炬芯科技、兆易创新、中颖电子、芯海科技等。

存储相关企业:江波龙、澜起科技、聚辰股份、北京君正、普冉股份、东芯股份、佰维存储等。

AI 应用端相关企业:工业富联、大华股份、海康威视等。

4. 潜在风险

下游需求不如预期:下游市场需求如发生重大不利变化,或影响产品推广使市场规模下滑。

库存去化不如预期:如出现不可预测的市场需求的较大变化,导致市场需求出现下降,则可能出现一定的存货风险。

研发与技术升级不如预期:随着产品换代、技术升级、用户需求和市场竞争状况不断演变,AI 相关产品研发及技术更新换代不如预期或影响整体产业发展。

宏观环境变动带来的风险:受贸易政策、宏观经济形势等因素影响,全球经济和半导体产业发展注入了新的不确定性和风险。

继续阅读