阿里云,阿里云大模型,阿里云大规模视觉语言模型,Mathematica 引入大语言模型,网友:买买买
阿里云今天推出了大规模视觉语言模型Qwen-VL,现已开源。 IT之家此前报道称,阿里云此前已开源了 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B。 -聊天。
据悉,Qwen-VL是一种视觉语言(VL)模型,支持中文、英文等多种语言。 它还增加了图像中的视觉定位和文本理解等功能。
Qwen-VL以Qwen-7B为基础语言模型,并在模型架构中引入视觉编码器,使模型支持视觉信号输入。 该模型支持的图像输入分辨率为448。之前开源的LVLM模型通常只支持224分辨率。 速度。
官方表示,该模型可用于知识问答、图像字幕生成、图像问答、文档问答、细粒度视觉定位等场景。 一般模型性能。
此外,在Qwen-VL的基础上,同易钱文团队利用对齐机制打造了基于LLM的视觉AI助手Qwen-VL-Chat,可以让开发者快速构建具有多模态能力的对话应用。
统一钱文团队还表示,为了测试模型的多模态对话能力,他们基于GPT-4评分机制构建了测试集“试金石”,并对比了Qwen-VL-Chat和其他模型。 -VL-Chat在中英文对齐评估中取得了开源LVLM的最好成绩。