2025-08-09 23:13:25

苹果的新人工智能模型根据用户的文本提示编辑照片

  

  

  苹果刚刚推出了一个开源的人工智能模型,可以执行基于文本的图像编辑命令。该模型被命名为mllm引导图像编辑(MGIE),是与加州大学圣巴巴拉分校合作开发的。

  MGIE可以执行各种图像编辑任务,如裁剪、调整大小和旋转;以及亮度、色彩平衡和对比度的调整——所有这些都是通过用户的文本提示来完成的。本周发表的一篇会议论文概述了MGIE的能力和性能的细节。

  该报告讨论了MGIE如何在不同的度量标准中显示出图像编辑性能的显著改进,并保持有竞争力的推理效率。该技术被用于执行photoshop风格的修改、照片优化和本地编辑。

  这篇论文解释了MGIE在现有技术上的优势,为未来的图像编辑工具提供了一个有希望的方向,即更容易访问和更直观地使用。MGIE并没有作为苹果的官方开发向公众广泛开放,但用户可以通过GitHub访问它进行技术探索,或者在hug Face上试用它的网络演示。

  MGIE的发展可能是为了赶上微软、谷歌和meta在过去两年中所做的事情。尽管其他科技巨头已经发布了精致的人工智能聊天机器人,甚至一些图像生成器,但苹果在生成型人工智能市场的缺席一直很有趣。

  该公司似乎正在努力迎头赶上:仅在2023年,苹果就收购了多达32家人工智能初创公司,远远超过了谷歌的21家、meta的18家和微软的17家。苹果一直对这些收购和人工智能的进步保密,让我们只能猜测该公司何时会公开发布这些信息,以及它们将包含在哪些设备和平台上。

  苹果公司以收购小公司以获取技术和人才而闻名,据BBC报道,苹果首席执行官蒂姆·库克(Tim Cook)在2021年表示,苹果公司每三到四周收购一家初创公司,但据报道,苹果公司在2022年放慢了步伐,当年只收购了两家公司。