被AI落下的苹果，能否靠Ferret-UI打赢翻身仗？

AI快讯 2024-04-11

大模型的崛起让科技领域的竞争格局焕然一新，创业新星如OpenAI、Anthropic、Mistral等崭露头角，挑战传统大厂的优势地位。尽管苹果在自动驾驶等领域遭遇了挫折，但在大模型这一新兴领域，苹果似乎并未跟上时代的步伐。

然而，近期苹果发布的新工作“Ferret-UI”引起了业界的关注。这款多模态模型专为移动端UI屏幕设计，旨在增强对UI屏幕的理解能力，并配备了引用、定位和推理等功能。与之前的Ferret模型相比，Ferret-UI更加聚焦于移动端和用户交互，具备解决通用多模态大模型所缺乏的理解UI屏幕的能力。

半年前，苹果和哥伦比亚大学研究团队联合发布的多模态大模型“Ferret”就已具有较高的图文关联能力，而“Ferret-UI”则是更聚焦移动端、关注用户交互。

研究团队认为，Ferret-UI 具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面 (UI) 屏幕并与其有效交互的能力。

在实际性能测试中，Ferret-UI展现出了出色的表现。在基础UI任务上，它超越了GPT-4V等其他模型，特别是在与iPhone相关的任务上更是表现卓越。在OCR、图标识别和控件分类等任务上，Ferret-UI的平均准确率远高于GPT-4V。而在安卓任务上，GPT-4V的性能显著下降，但Ferret-UI仍能保持稳定的性能，这显示了其跨平台的UI知识迁移能力。

在查找文本、查找图标和查找控件等定位任务上，Ferret-UI也展现出了优越的性能。

而在高级 UI 任务性能的比拼中，Ferret-UI 同样表现优秀。

在详细描述（DetDes）、感知对话（ConvP）、交互对话（ConvI）和功能推断（FuncIn）等高级任务上，Ferret-UI 展现了与 GPT-4V 相当的性能，并且在某些任务上超过了GPT-4V。

而与开源UI多模态模型 Fuyu 和 CogAgent 相比，Ferret-UI 在大多数任务上均实现超过。特别是在 iPhone 平台上，Ferret-UI 的性能得分显著高于 Fuyu 和 CogAgent。

Ferret-UI之所以能在多项UI任务中表现出色，关键在于其引入了“任何分辨率”（Anyres）技术。这项技术解决了移动设备UI屏幕长宽比多样化的问题，使得模型能够适应不同大小和形状的屏幕。通过将屏幕分割成多个子图像，并生成相应的图像特征，Ferret-UI能够更准确地理解UI屏幕的内容，并与用户进行有效交互。

传统的模型可能需要固定大小的输入，但手机等移动设备的屏幕大小和长宽比各异，显然给模型的输入带来了挑战。

为了适应这一点，Ferret-UI 将屏幕分割成多个子图像，这样可以对每个子图像进行放大，从而捕捉到更多的细节。

具体来说，对于每个基于原始图像长宽比获得的子图像，都会生成额外的图像特征。对于具有区域引用的文本，视觉采样器会生成相应的区域连续特征。

这种方法不仅适用于不同长宽比的屏幕，还提高了模型对UI元素的细节识别能力，能够突出显示屏幕上的小型对象，如图标和文本，对于提高模型的识别和定位精度至关重要。

另外，苹果研究团队还设计了一个分层次的实验方法，从简单到复杂，以逐步提升 Ferret-UI 模型的能力。

从基础的识别和分类任务开始，Ferret-UI 模型建立了对 UI 元素的基本理解，学会了识别和分类 UI 元素，为处理更复杂的任务打下基础。

接着逐步过渡到需要更高层次理解的对话和推断任务。随着模型能力的提高，任务变得更加复杂，要求模型不仅要识别 UI 元素，还要理解它们的功能和上下文。高级任务的设计为模型提供了必要的背景知识和理解能力，使其能够处理复杂的UI交互。

分层次的任务设计不仅有助于模型逐步学习，还能够确保模型在面对更复杂的 UI 交互时具有足够的背景知识和理解能力。通过这种方式，Ferret-UI 能够更好地理解和响应用户的指令，提供更加准确和有用的交互。

从基础的识别和分类到高级的描述和推断，Ferret-UI 在面对真实世界中的UI交互时，能够提供准确和有用的响应。再结合 anyres 技术处理不同分辨率的屏幕，进一步增强了其在实际应用中的有效性和用户体验。

尽管苹果在大模型领域起步较晚，但Ferret-UI的发布表明苹果正在加快追赶的步伐。未来，随着大模型技术的不断发展，我们有理由相信苹果将继续在这一领域取得更多的突破和创新。同时，我们也期待看到更多科技公司加入到这场大模型的竞赛中，共同推动科技行业的进步和发展。

AI 苹果 Ferret-UI GPT-4V

@版权声明:部分内容从网络收集整理，如有侵权，请联系删除!

相关文章

每天免费100万token！OpenAI GPT-4o数据微调功能发布：打造个性化ChatGPT新纪元

2024-08-21

30

Midjourney咒语｜跟着AI学摄影，打造最逼真的照片！

2024-08-20

27

新手必看！AI绘画工具Stable Diffusion模型分几种？

2024-08-20

11

AI视频又出王炸！Runway新增图像生视频功能，效果炸裂价格少一半

2024-08-20

35

OpenAI权利更迭，75名核心人员离职，四名领导层新星入局

2024-08-19

9

AI儿童陪伴市场爆发，巨头与创业者争相布局，OpenAI已投儿童游戏生成器Heeyo

2024-08-16

19

AI569工具箱收录了国内外当下流行的数百款 ai工具，定期检查更新最新的好用工具，工具包含了ai文本模型、ai绘画模型、ai 视频模型、ai声音模型等各种类型!Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具箱导航关于我们免责声明

Copyright © AI569工具导航站-ai工具大全京ICP备16027678号-17