2025年8月,加拿大AI公司Cohere重磅推出企业级视觉模型Command A Vision,为企业图像数据处理提供全新智能工具。该模型基于自研Llava架构打造,专为解析复杂企业视觉任务而设计,能够高效分析图表、扫描文档、PDF及现实场景照片,助力风险检测与决策优化。

技术亮点方面,Command A Vision仅需两枚GPU即可运行,大幅降低企业部署成本。其核心创新在于将视觉特征转化为“软视觉Token”,通过1110亿参数的文本大语言模型处理,实现图像与文本的深度融合。模型支持23种语言的OCR识别,并能从非结构化数据中提取关键洞察,性能在九项基准测试中超越GPT-4.1、Llama 4等竞品,平均得分达83.1%。
页码:下一页