苹果公司推出了多模态大模型MM的1.5版本,该版本模型延续了数据驱动的训练原则,并研究了不同类型数据混合对模型性能的影响。新版本模型具备图像识别和自然语言推理能力,并提供了10亿-300亿参数规模。苹果公司在新版本中改进了数据混合策略,提升了模型在多文本图像理解、视觉引用与定位以及多图像推理方面的能力。此外,苹果公司还推出了专门用于视频理解和移动设备UI理解的MM1.5-Video和MM1.5-UI模型。尽管MM1.5模型在多项基准测试中表现优秀,苹果团队仍计划通过融合更多数据和设计更复杂的架构来提升模型对移动设备UI的理解能力。