官方介绍:Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。 Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。
官网介绍
运行环境:Ubuntu 22.04 + Intel(R)Xeon(R) CPU E5-2699 v4 2.20GHZ + RAM(512GB)
阿里的东东,下载就比较方便了,直接魔搭上下载就行,如下:
git lfs install git clone https://modelscope.cn/qwen/Qwen-VL-Chat.git
这里将模型克隆到了
该章节跑一下官方介绍大模型时给出的示例代码。
首先新建一个项目,如下图:
说明:这张图片就是后面要测试的图片
因为GPU资源比较紧张,该项目的测试采用CPU,也就是需要安装CPU版本的
# 创建虚拟环境并激活 python3 -m venv venv source ./venv/bin/activate # 安装依赖 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu pip install transformers tiktoken matplotlib einops transformers_stream_generator accelerate
新建
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig model_path = '/home/xxx/llm/0-model/Qwen/Qwen-VL-Chat' revision = 'v1.1.0' tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(model_path, device_map="cpu", trust_remote_code=True).eval() model.generation_config = GenerationConfig.from_pretrained(model_path, trust_remote_code=True) query = tokenizer.from_list_format([ {'image': './image/1.JPG'}, {'text': '这是谁?'}, ]) response, history = model.chat(tokenizer, query=query, history=None) print(response)
# 激活虚拟环境之后 python Qwen-VL-Chat.py
该章节使用Web页面体验一下该模型,代码克隆自:GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud.
首先对
# 在项目的根路径打开终端 python3 -m venv venv source ./venv/bin/activate # 安装依赖 # 这里还是使用CPU,先安装CPU版本的 torch pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu pip install -r requirements.txt pip install -r requirements_web_demo.txt
最后看一下web界面的效果