被AI落下的苹果,能否靠Ferret-UI打赢翻身仗?
大模型的崛起让科技领域的竞争格局焕然一新,创业新星如OpenAI、Anthropic、Mistral等崭露头角,挑战传统大厂的优势地位。尽管苹果在自动驾驶等领域遭遇了挫折,但在大模型这一新兴领域,苹果似乎并未跟上时代的步伐。
然而,近期苹果发布的新工作“Ferret-UI”引起了业界的关注。这款多模态模型专为移动端UI屏幕设计,旨在增强对UI屏幕的理解能力,并配备了引用、定位和推理等功能。与之前的Ferret模型相比,Ferret-UI更加聚焦于移动端和用户交互,具备解决通用多模态大模型所缺乏的理解UI屏幕的能力。
半年前,苹果和哥伦比亚大学研究团队联合发布的多模态大模型“Ferret”就已具有较高的图文关联能力,而“Ferret-UI”则是更聚焦移动端、关注用户交互。
研究团队认为,Ferret-UI 具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面 (UI) 屏幕并与其有效交互的能力。
在实际性能测试中,Ferret-UI展现出了出色的表现。在基础UI任务上,它超越了GPT-4V等其他模型,特别是在与iPhone相关的任务上更是表现卓越。在OCR、图标识别和控件分类等任务上,Ferret-UI的平均准确率远高于GPT-4V。而在安卓任务上,GPT-4V的性能显著下降,但Ferret-UI仍能保持稳定的性能,这显示了其跨平台的UI知识迁移能力。
在查找文本、查找图标和查找控件等定位任务上,Ferret-UI也展现出了优越的性能。
而在高级 UI 任务性能的比拼中,Ferret-UI 同样表现优秀。
在详细描述(DetDes)、感知对话(ConvP)、交互对话(ConvI)和功能推断(FuncIn)等高级任务上,Ferret-UI 展现了与 GPT-4V 相当的性能,并且在某些任务上超过了GPT-4V。
而与开源UI多模态模型 Fuyu 和 CogAgent 相比,Ferret-UI 在大多数任务上均实现超过。特别是在 iPhone 平台上,Ferret-UI 的性能得分显著高于 Fuyu 和 CogAgent。
Ferret-UI之所以能在多项UI任务中表现出色,关键在于其引入了“任何分辨率”(Anyres)技术。这项技术解决了移动设备UI屏幕长宽比多样化的问题,使得模型能够适应不同大小和形状的屏幕。通过将屏幕分割成多个子图像,并生成相应的图像特征,Ferret-UI能够更准确地理解UI屏幕的内容,并与用户进行有效交互。
传统的模型可能需要固定大小的输入,但手机等移动设备的屏幕大小和长宽比各异,显然给模型的输入带来了挑战。
为了适应这一点,Ferret-UI 将屏幕分割成多个子图像,这样可以对每个子图像进行放大,从而捕捉到更多的细节。
具体来说,对于每个基于原始图像长宽比获得的子图像,都会生成额外的图像特征。对于具有区域引用的文本,视觉采样器会生成相应的区域连续特征。
这种方法不仅适用于不同长宽比的屏幕,还提高了模型对UI元素的细节识别能力,能够突出显示屏幕上的小型对象,如图标和文本,对于提高模型的识别和定位精度至关重要。
另外,苹果研究团队还设计了一个分层次的实验方法,从简单到复杂,以逐步提升 Ferret-UI 模型的能力。
从基础的识别和分类任务开始,Ferret-UI 模型建立了对 UI 元素的基本理解,学会了识别和分类 UI 元素,为处理更复杂的任务打下基础。
接着逐步过渡到需要更高层次理解的对话和推断任务。随着模型能力的提高,任务变得更加复杂,要求模型不仅要识别 UI 元素,还要理解它们的功能和上下文。高级任务的设计为模型提供了必要的背景知识和理解能力,使其能够处理复杂的UI交互。
分层次的任务设计不仅有助于模型逐步学习,还能够确保模型在面对更复杂的 UI 交互时具有足够的背景知识和理解能力。通过这种方式,Ferret-UI 能够更好地理解和响应用户的指令,提供更加准确和有用的交互。
从基础的识别和分类到高级的描述和推断,Ferret-UI 在面对真实世界中的UI交互时,能够提供准确和有用的响应。再结合 anyres 技术处理不同分辨率的屏幕,进一步增强了其在实际应用中的有效性和用户体验。
尽管苹果在大模型领域起步较晚,但Ferret-UI的发布表明苹果正在加快追赶的步伐。未来,随着大模型技术的不断发展,我们有理由相信苹果将继续在这一领域取得更多的突破和创新。同时,我们也期待看到更多科技公司加入到这场大模型的竞赛中,共同推动科技行业的进步和发展。