首页 > 立知

阿里云,阿里云大模型,阿里云大规模视觉语言模型,Mathematica 引入大语言模型,网友:买买买

小猫咪 立知 2024-01-23

阿里云今天推出了大规模视觉语言模型Qwen-VL,现已开源。 IT之家此前报道称,阿里云此前已开源了 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B。 -聊天。

据悉,Qwen-VL是一种视觉语言(VL)模型,支持中文、英文等多种语言。 它还增加了图像中的视觉定位和文本理解等功能。

Qwen-VL以Qwen-7B为基础语言模型,并在模型架构中引入视觉编码器,使模型支持视觉信号输入。 该模型支持的图像输入分辨率为448。之前开源的LVLM模型通常只支持224分辨率。 速度。

官方表示,该模型可用于知识问答、图像字幕生成、图像问答、文档问答、细粒度视觉定位等场景。 一般模型性能。

此外,在Qwen-VL的基础上,同易钱文团队利用对齐机制打造了基于LLM的视觉AI助手Qwen-VL-Chat,可以让开发者快速构建具有多模态能力的对话应用。

统一钱文团队还表示,为了测试模型的多模态对话能力,他们基于GPT-4评分机制构建了测试集“试金石”,并对比了Qwen-VL-Chat和其他模型。 -VL-Chat在中英文对齐评估中取得了开源LVLM的最好成绩。

相关阅读:

暂无相关信息
  • 网站地图 | 联系我们
  • 声明:这就到-知道你所不知道登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。