重磅测试结果曝光!多模态AI视频推理集体不及格,最强模型也仅62分
2025-04-17
中科大等团队提出VCR-Bench评估基准,测试多模态模型在视频CoT推理能力的表现。结果显示最优模型O1仅获62.8分和56.7%准确率,多数模型两项指标均低于40分。闭源模型和大模型表现优于开源及小模型,视觉感知能力不足是主要瓶颈,时空推理维度表现最差。研究指出当前多模态视频理解技术存在明显短板,但评估体系的建立为行业进步提供了新标准。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
