Qwen-VL 🤖 | 🤗 ｜ Qwen-VL-Chat 🤖 | 🤗 ｜ Demo ｜ Report | Discord

Japanese document maintainer: Ikko Eltociear Ashimine

Qwen-VL （Qwen Large Vision Language Model）は、アリババクラウドが提唱するラージモデルシリーズ Qwen（略称: Tongyi Qianwen）のマルチモーダル版です。Qwen-VL は、画像、テキスト、バウンディングボックスを入力として受け付け、テキストとバウンディングボックスを出力します。Qwen-VL の特徴は以下の通りです:

好調なパフォーマンス: 複数の英語評価ベンチマーク（Zero-shot Captioning、VQA、DocVQA、Grounding を含む）において、同様のモデル規模でオープンソース化された既存のラージビジョン言語モデル（LVLM）を大幅に上回ります。
テキスト認識をサポートする多言語 LVLM: Qwen-VL は、英語、中国語、多言語の会話を自然にサポートし、画像内の中国語と英語の二言語テキストのエンドツーエンドの認識を促進します。
複数画像のインターリーブ会話: この機能により、複数の画像を入力し、比較することができる。また、画像に関連する質問を指定し、複数の画像によるストーリーテリングを行うこともできます。
中国語のグラウンディングを支える初のジェネラリストモデル: 中国語と英語のオープンドメイン言語表現によるバウンディングボックスの検出。
きめ細やかな認識と理解: 現在他のオープンソース LVLM で使用されている 224*224 の解像度と比較して、448*448 の解像度は、きめ細かいテキスト認識、文書 QA、バウンディングボックス注釈を促進する。

Qwen-VL シリーズの 2 つのモデルを公開します:

Qwen-VL: LLM の初期化に Qwen-7B を、視覚エンコーダの初期化に Openclip ViT-bigG を用いた学習済み LVLM モデル。そして、それらをランダムに初期化されたクロスアテンションレイヤーで接続する。
Qwen-VL-Chat: マルチモーダルな LLM ベースの AI アシスタント。Qwen-VL-Chat は、複数の画像入力、複数ラウンドの質問応答、クリエイティブな機能など、より柔軟なインタラクションをサポートします。

評価

モデルの能力を2つの観点から評価しました:

標準ベンチマーク: マルチモーダルなタスクの4つの主要カテゴリーについて、モデルの基本的なタスク能力を評価する:
- ゼロショットキャプション: 未見のデータセットに対して、モデルのゼロショット画像キャプション能力を評価する;
- 一般的なVQA: 判定、色、数、カテゴリなど、画像の一般的な質問応答能力を評価する;
- テキストベースVQA: 文書QA、図表QAなど、写真内のテキストを認識するモデルの能力を評価する;
- 参照表現理解: 参照表現理解: 参照表現で記述された画像内の対象物を特定する能力を評価する。
TouchStone: 総合的なテキスト画像対話能力と人間とのアライメントレベルを評価するために、GPT4 によるスコアリングに基づく TouchStone と呼ばれるベンチマークを構築し、LVLM モデルを評価しました。
- TouchStone ベンチマークは、合計 300 以上の画像、800 以上の質問、27 のカテゴリをカバーしています。例えば、属性ベースの Q&A、有名人の認識、詩の作文、複数の画像の要約、商品比較、数学の問題解決などです;
- 画像の直接入力という GPT4 の現在の制限を打ち破るため、TouchStone は人間のラベル付けによるきめ細かい画像注釈を提供します。これらの詳細な注釈は、質問とモデルの出力と共に、採点のために GPT4 に提示されます。
- ベンチマークには英語版と中国語版があります。

評価結果は以下の通りです:

Qwen-VL は、複数の VL タスクにおいて、現行の SOTA ジェネラリストモデルを上回り、また、能力範囲の点でより包括的なカバレッジを持ちます。

ゼロショットキャプションと一般的な VQA

Model type	Model	Zero-shot Captioning		General VQA
Model type	Model	NoCaps	Flickr30K	VQAv2^dev	OK-VQA	GQA	SciQA-Img (0-shot)	VizWiz (0-shot)
Generalist Models	Flamingo-9B	-	61.5	51.8	44.7	-	-	28.8
	Flamingo-80B	-	67.2	56.3	50.6	-	-	31.6
	Unified-IO-XL	100.0	-	77.9	54.0	-	-	-
	Kosmos-1	-	67.1	51.0	-	-	-	29.2
	Kosmos-2	-	80.5	51.1	-	-	-	-
	BLIP-2 (Vicuna-13B)	103.9	71.6	65.0	45.9	32.3	61.0	19.6
	InstructBLIP (Vicuna-13B)	121.9	82.8	-	-	49.5	63.1	33.4
	Shikra (Vicuna-13B)	-	73.9	77.36	47.16	-	-	-
	Qwen-VL (Qwen-7B)	121.4	85.8	78.8	58.6	59.3	67.1	35.2
	Qwen-VL-Chat	120.2	81.0	78.2	56.6	57.5	68.2	38.9
Previous SOTA (Per Task Fine-tuning)	-	127.0 (PALI-17B)	84.5 (InstructBLIP -FlanT5-XL)	86.1 (PALI-X -55B)	66.1 (PALI-X -55B)	72.1 (CFR)	92.53 (LLaVa+ GPT-4)	70.9 (PALI-X -55B)

ゼロショット画像のキャプション付けでは、Qwen-VL は Flickr30K で SOTA を達成し、InstructBlip を使用した Nocaps でも競争力のある結果を得ています。
一般的な VQA では、Qwen-VL は同じ一般的な LVLM スケール設定で SOTA を達成しています。

テキスト指向VQA（画像中のテキスト理解能力に重点を置く）

Model type	Model	TextVQA	DocVQA	ChartQA	AI2D	OCR-VQA
Generalist Models	BLIP-2 (Vicuna-13B)	42.4	-	-	-	-
	InstructBLIP (Vicuna-13B)	50.7	-	-	-	-
	mPLUG-DocOwl (LLaMA-7B)	52.6	62.2	57.4	-	-
	Pic2Struct-Large (1.3B)	-	76.6	58.6	42.1	71.3
	Qwen-VL (Qwen-7B)	63.8	65.1	65.7	62.3	75.7
Specialist SOTAs (Specialist/Finetuned)	PALI-X-55B (Single-task FT) (Without OCR Pipeline)	71.44	80.0	70.0	81.2	75.0

テキスト関連の認識/QA 評価において、Qwen-VL は汎用の LVLM スケール設定で SOTA を達成しています。
解像度は上記のいくつかの評価において重要である。解像度が 224 のオープンソースの LVLM モデルの多くは、これらの評価ができないか、画像をカットすることでしか解決できないが、Qwen-VL は解像度を 448 にスケーリングし、エンドツーエンドで評価できるようにしました。Qwen-VL は、一部のタスクにおいて、解像度 1024 の Pic2Struct-Large モデルをも凌駕しています。

表現理解の参照

Model type	Model	RefCOCO			RefCOCO+			RefCOCOg		GRIT
Model type	Model	val	test-A	test-B	val	test-A	test-B	val-u	test-u	refexp
Generalist Models	GPV-2	-	-	-	-	-	-	-	-	51.50
	OFA-L*	79.96	83.67	76.39	68.29	76.00	61.75	67.57	67.58	61.70
	Unified-IO	-	-	-	-	-	-	-	-	78.61
	VisionLLM-H		86.70	-	-	-	-	-	-	-
	Shikra-7B	87.01	90.61	80.24	81.60	87.36	72.12	82.27	82.19	69.34
	Shikra-13B	87.83	91.11	81.81	82.89	87.79	74.41	82.64	83.16	69.03
	Qwen-VL-7B	89.36	92.26	85.34	83.12	88.25	77.21	85.58	85.48	78.22
	Qwen-VL-7B-Chat	88.55	92.27	84.51	82.82	88.59	76.79	85.96	86.32	-
Specialist SOTAs (Specialist/Finetuned)	G-DINO-L	90.56	93.19	88.24	82.75	88.95	75.92	86.13	87.02	-
	UNINEXT-H	92.64	94.33	91.46	85.24	89.63	79.79	88.73	89.37	-
	ONE-PEACE	92.58	94.18	89.26	88.77	92.21	83.23	89.22	89.27	-

Qwen-VL は、上記のすべての参照表現理解ベンチマークで SOTA を達成した。
Qwen-VL は中国語の下地データを学習していないが、中国語のキャプションデータと英語の下地データを学習することで、ゼロショットで中国語の下地タスクに汎化することができます。

私たちの実験結果を再現するために、上記の評価スクリプトをすべて提供しています。詳しくは eval_mm/EVALUATION.md をお読みください。

チャット評価

TouchStone は GPT4 によるスコアリングに基づくベンチマークで、テキストと画像の対話および人間とのアライメントレベルにおける LVLM モデルの能力を評価する。合計 300 以上の画像、800 以上の質問、属性ベースの Q&A、有名人の認識、詩の作成、複数の画像の要約、商品比較、数学の問題解決など27のカテゴリをカバーしています。詳しくは touchstone/README_JA.md をお読みください。

英語評価

Model	Score
PandaGPT	488.5
MiniGPT4	531.7
InstructBLIP	552.4
LLaMA-AdapterV2	590.1
LLaVA	602.7
mPLUG-Owl	605.4
Qwen-VL-Chat	645.2

中国語評価

Model	Score
VisualGLM	247.1
Qwen-VL-Chat	401.2

Qwen-VL-Chat は中国語と英語のアライメント評価で最高の結果を得ました。

必要条件

python 3.8 以上
pytorch 1.12 以上、2.0 以上を推奨
CUDA 11.4 以上を推奨（GPU ユーザー向けです）

クイックスタート

以下では、Qwen-VL と Qwen-VL-Chat を 🤖 ModelScope と 🤗 Transformers とともに使う方法を、簡単な例で示します。

コードを実行する前に、環境のセットアップと必要なパッケージのインストールが済んでいることを確認してください。上記の要件を満たしていることを確認してから、依存するライブラリをインストールしてください。

pip install -r requirements.txt

これで ModelScope や Transformers を使い始めることができます。ビジョンエンコーダについての詳しい使い方は、チュートリアルを参照してください。

🤗 Transformers

Qwen-VL-Chat を推論に使用するために必要なのは、以下に示す数行のコードを入力することだけです。ただし、最新のコードを使用していることを確認してください。

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import torch
torch.manual_seed(1234)

# Note: デフォルトの動作では、インジェクション攻撃防止機能がオフになりました。
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-VL-Chat", trust_remote_code=True)

# bf16 の使用
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL-Chat", device_map="auto", trust_remote_code=True, bf16=True).eval()
# fp16 の使用
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL-Chat", device_map="auto", trust_remote_code=True, fp16=True).eval()
# cpu のみの使用
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL-Chat", device_map="cpu", trust_remote_code=True).eval()
# cuda デバイスの使用
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL-Chat", device_map="cuda", trust_remote_code=True).eval()

# 生成のためのハイパーパラメータの指定
model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-VL-Chat", trust_remote_code=True)

# 第 1 回 対話ターン
query = tokenizer.from_list_format([
    {'image': 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg'}, # ローカルパスまたは url
    {'text': '这是什么?'},
])
response, history = model.chat(tokenizer, query=query, history=None)
print(response)
# 写真はビーチでラブラドールの隣で愛犬と戯れる女性が写っており、彼らは砂の中にいる。

# 第 2 回 対話ターン
response, history = model.chat(tokenizer, '框出图中击掌的位置', history=history)
print(response)
# <ref>击掌</ref><box>(536,509),(588,602)</box>
image = tokenizer.draw_bbox_on_latest_picture(response, history)
if image:
  image.save('1.jpg')
else:
  print("no box")

Running Qwen-VL

Running Qwen-VL pretrained base model is also simple.

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
import torch
torch.manual_seed(1234)

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-VL", trust_remote_code=True)

# bf16 の使用
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="auto", trust_remote_code=True, bf16=True).eval()
# fp16 の使用
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="auto", trust_remote_code=True, fp16=True).eval()
# cpu のみの使用
# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="cpu", trust_remote_code=True).eval()
# cuda デバイスの使用
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL", device_map="cuda", trust_remote_code=True).eval()

# 生成のためのハイパーパラメータの指定
model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-VL", trust_remote_code=True)

query = tokenizer.from_list_format([
    {'image': 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg'}, # ローカルパスまたは url
    {'text': 'Generate the caption in English with grounding:'},
])
inputs = tokenizer(query, return_tensors='pt')
inputs = inputs.to(model.device)
pred = model.generate(**inputs)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False)
print(response)
# <img>https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg</img>Generate the caption in English with grounding:<ref> Woman</ref><box>(451,379),(731,806)</box> and<ref> her dog</ref><box>(219,424),(576,896)</box> playing on the beach<|endoftext|>
image = tokenizer.draw_bbox_on_latest_picture(response)
if image:
  image.save('2.jpg')
else:
  print("no box")

🤖 ModelScope

ModelScope は、MaaS（Model-as-a-Service）のためのオープンソースプラットフォームであり、AI 開発者に柔軟で費用対効果の高いモデルサービスを提供します。同様に、以下のように ModelScope でモデルを実行することができます:

from modelscope import (
    snapshot_download, AutoModelForCausalLM, AutoTokenizer, GenerationConfig
)
import torch
model_id = 'qwen/Qwen-VL-Chat'
revision = 'v1.0.0'

model_dir = snapshot_download(model_id, revision=revision)
torch.manual_seed(1234)

tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
if not hasattr(tokenizer, 'model_dir'):
    tokenizer.model_dir = model_dir
# bf16 の使用
# model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, bf16=True).eval()
# fp16 の使用
model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True, fp16=True).eval()
# cpu の使用
# model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="cpu", trust_remote_code=True).eval()
# auto の使用
# model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto", trust_remote_code=True).eval()

# 生成のためのハイパーパラメータの指定
model.generation_config = GenerationConfig.from_pretrained(model_dir, trust_remote_code=True)

# 第 1 回 対話ターン
# Either a local path or an url between <img></img> tags.
image_path = 'https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg'
response, history = model.chat(tokenizer, query=f'<img>{image_path}</img>这是什么', history=None)
print(response)
# 写真は、若い女性がビーチで愛犬のラブラドール種と戯れているところ。 二人は浜辺に座り、犬の前脚を上げて触れ合っている。

# 第 2 回 対話ターン
response, history = model.chat(tokenizer, '输出击掌的检测框', history=history)
print(response)
# <ref>"击掌"</ref><box>(211,412),(577,891)</box>
image = tokenizer.draw_bbox_on_latest_picture(response, history)
if image:
  image.save('output_chat.jpg')
else:
  print("no box")

デモ

Web UI

Web UI デモを構築するためのコードを提供します。始める前に、以下のパッケージがインストールされていることを確認してください:

pip install -r requirements_web_demo.txt

次に以下のコマンドを実行し、生成されたリンクをクリックします:

python web_demo_mm.py

FAQ

問題が発生した場合は、FAQ や issue を参照し、新しい issue を立ち上げる前に解決策を探してください。

ライセンス契約

研究者や開発者は、Qwen-VL と Qwen-VL-Chat のコードとモデルウェイトを自由に使用することができます。また、商用利用も可能です。詳しくは LICENSE をご覧ください。

お問い合わせ

研究チームまたは製品チームへのメッセージは、qianwen_opensource@alibabacloud.com までお気軽にお送りください。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_JA.md

README_JA.md

評価

ゼロショットキャプションと一般的な VQA

テキスト指向VQA（画像中のテキスト理解能力に重点を置く）

表現理解の参照

チャット評価

英語評価

中国語評価

必要条件

クイックスタート

🤗 Transformers

🤖 ModelScope

デモ

Web UI

FAQ

ライセンス契約

お問い合わせ

Files

README_JA.md

Latest commit

History

README_JA.md

File metadata and controls

評価

ゼロショットキャプションと一般的な VQA

テキスト指向VQA（画像中のテキスト理解能力に重点を置く）

表現理解の参照

チャット評価

英語評価

中国語評価

必要条件

クイックスタート

🤗 Transformers

🤖 ModelScope

デモ

Web UI

FAQ

ライセンス契約

お問い合わせ