Update Force Channel FP8 Check #1562

yiliu30 · 2025-07-10T02:17:40Z

Porting #1561

Signed-off-by: Chen Zhang <zhangch99@outlook.com>

…hen Thinking is enabled (vllm-project#19075) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>

Signed-off-by: nicklucche <nlucches@redhat.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>

…for models with sliding window layers (vllm-project#19029) Signed-off-by: Chen Zhang <zhangch99@outlook.com>

…llm-project#18919)

Signed-off-by: Russell Bryant <rbryant@redhat.com> Co-authored-by: Mark McLoughlin <markmc@redhat.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>

…roject#18437)

…t#19059) Signed-off-by: calvin chen <120380290@qq.com>

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>

Signed-off-by: 汪志鹏 <wangzhipeng628@gmail.com>

Signed-off-by: Siyuan Liu <lsiyuan@google.com>

…m-project#19113) Signed-off-by: Seiji Eicher <seiji@anyscale.com>

…9089) Signed-off-by: Isotr0py <2037008807@qq.com>

…project#18678) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>

Signed-off-by: 许文卿 <xwq391974@alibaba-inc.com>

Deepseek in our definition has two places where kv_b_proj is defined: in `self_attn.kv_b_proj` and `self_attn.impl.kv_b_proj` . First one isn't used, but at the model initialization is present, which makes inc try to quantize it. Because at the measurement it wasn't used, there are no measurements for this specific object and it causes it to crash. --------- Signed-off-by: kwisniewski98 <kwisniewski@habana.ai>

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>

…ect#19102) Signed-off-by: Jon Swenson <jmswen@gmail.com>

Signed-off-by: Tyler Michael Smith <tysmith@redhat.com>

Signed-off-by: mgoin <mgoin64@gmail.com>

…19108) Signed-off-by: Siyuan Liu <lsiyuan@google.com>

Signed-off-by: Varun <vsundarr@redhat.com> Co-authored-by: Varun <vsundarr@redhat.com>

Twin PR: HabanaAI/vllm-hpu-extension#223 --------- Signed-off-by: Agata Dobrzyniewicz <adobrzyniewicz@habana.ai> Signed-off-by: root <root@adobrzyniewicz-t28p-g3-mpijob-worker-0.adobrzyniewicz-t28p-g3-mpijob-worker.framework.svc.cluster.local> Signed-off-by: root <root@adobrzyniewicz-6hqu-g2-mpijob-worker-0.adobrzyniewicz-6hqu-g2-mpijob-worker.framework.svc.cluster.local> Signed-off-by: root <root@adobrzyniewicz-fbbo-g2-mpijob-worker-0.adobrzyniewicz-fbbo-g2-mpijob-worker.framework.svc.cluster.local> Co-authored-by: root <root@adobrzyniewicz-t28p-g3-mpijob-worker-0.adobrzyniewicz-t28p-g3-mpijob-worker.framework.svc.cluster.local> Co-authored-by: root <root@adobrzyniewicz-6hqu-g2-mpijob-worker-0.adobrzyniewicz-6hqu-g2-mpijob-worker.framework.svc.cluster.local> Co-authored-by: root <root@adobrzyniewicz-fbbo-g2-mpijob-worker-0.adobrzyniewicz-fbbo-g2-mpijob-worker.framework.svc.cluster.local>

Signed-off-by: kwisniewski98 <kwisniewski@habana.ai>

See https://jira.habana-labs.com/browse/SW-234006?focusedId=1073396&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-1073396

Cherry pick of the docker vllm: update readme from habana_main Signed-off-by: Tomasz Thaddey <tthaddey@habana.ai> Signed-off-by: Artur Fierka <artur.fierka@intel.com> Co-authored-by: Tomasz Thaddey <76682475+tthaddey@users.noreply.github.com>

Signed-off-by: yiliu30 <yi4.liu@intel.com>

ekagra-ranjan and others added 30 commits June 3, 2025 15:26

[V1][Spec Decode][Ngram] 1.35x gain -> 1.95x gain on InstructCoder wi…

135cf55

…th prompt fix (vllm-project#18971)

[Bugfix] get_num_blocks_to_allocate with null_block (vllm-project#19031)

b5fd950

Signed-off-by: Chen Zhang <zhangch99@outlook.com>

[Bugfix]: Fix the incompatibility issue with tool_choice 'required' w…

4de790f

…hen Thinking is enabled (vllm-project#19075) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>

[Bugfix][P/D] Fix Prefix Cache Bug (vllm-project#18411)

5d96533

Signed-off-by: nicklucche <nlucches@redhat.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>

[Bugfix] Max concurrency estimation and check_enough_kv_cache_memory …

a8da78e

…for models with sliding window layers (vllm-project#19029) Signed-off-by: Chen Zhang <zhangch99@outlook.com>

feat: add data parallel rank to KVEventBatch (vllm-project#18925)

b712be9

[Misc] Fix path and python alias errors in disagg_prefill exmaples (v…

abd7df2

…llm-project#18919)

[Docs] Add developer doc about CI failures (vllm-project#18782)

52dceb1

Signed-off-by: Russell Bryant <rbryant@redhat.com> Co-authored-by: Mark McLoughlin <markmc@redhat.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>

[CPU] V1 support for the CPU backend (vllm-project#16441)

4555143

[Core] Cast multimodal input in hf processor (vllm-project#18862)

1409ef9

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>

[KERNEL] Sampler. CUDA kernel for applying repetition penalty (vllm-p…

5d6d1ad

…roject#18437)

[Cleanup][v1]:remote guided-decoding-backend for example (vllm-projec…

8d646c2

…t#19059) Signed-off-by: calvin chen <120380290@qq.com>

[NVIDIA] Add Cutlass MLA backend (vllm-project#17625)

41aa578

[Bugfix] Fix FA3 full cuda graph correctness (vllm-project#19106)

b124e10

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>

Fix vllm-project#19130 (vllm-project#19132)

3336c8c

Signed-off-by: 汪志鹏 <wangzhipeng628@gmail.com>

[TPU] Skip hanging tests (vllm-project#19115)

8e972d9

Signed-off-by: Siyuan Liu <lsiyuan@google.com>

Fix ValueError: Missing value for tag key(s): model_name,engine. (vll…

2669a0d

…m-project#19113) Signed-off-by: Seiji Eicher <seiji@anyscale.com>

[Misc] Add packages for benchmark as extra dependency (vllm-project#1…

8711bc5

…9089) Signed-off-by: Isotr0py <2037008807@qq.com>

Improve the output precision of embedding models (vllm-project#19092)

35cf32d

[CI/Build][Bugfix] Ensure compatibility with transformers 4.52 (vllm-…

01dc9a7

…project#18678) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>

Add DeepSeek-R1-0528 function call chat template (vllm-project#18874)

02658c2

Signed-off-by: 许文卿 <xwq391974@alibaba-inc.com>

Sm100 blockwise fp8 swap ab (vllm-project#18564)

5f2cd25

[Doc] Update V1 Guide for embedding models (vllm-project#19141)

8f4ffbd

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>

Allow AsyncLLMEngine.generate to target a specific DP rank (vllm-proj…

c8dcc15

…ect#19102) Signed-off-by: Jon Swenson <jmswen@gmail.com>

[Bugfix][EP+DP] Fix internode check (vllm-project#19112)

d459fae

Signed-off-by: Tyler Michael Smith <tysmith@redhat.com>

[Perf] Tunings for SM100 FP8 CUTLASS kernel (vllm-project#18778)

53a5a0c

Signed-off-by: mgoin <mgoin64@gmail.com>

[TPU] Update dynamo dump file name in compilation test (vllm-project#…

7ee2590

…19108) Signed-off-by: Siyuan Liu <lsiyuan@google.com>

[Bugfix] fix v1 cpu worker fails on macOS (vllm-project#19121)

ef3f98b

[Kernel] Integrate batched/masked deepgemm kernel (vllm-project#19111)

c3fd4d6

Signed-off-by: Varun <vsundarr@redhat.com> Co-authored-by: Varun <vsundarr@redhat.com>

michalkuligowski and others added 20 commits July 4, 2025 14:28

Update tensorizer.py

7f398bd

Update fp8_utils.py

01b5736

Update fp8_utils.py

5b2d8f4

Update hpu_model_runner.py

2e61e22

Update fused_moe.py

dcff26d

Update test_embedding.py

cd20cec

Update forward_context.py

5b5d37f

Update fp8_utils.py

5dc3788

Update tensorizer.py

830cb1b

Update fused_moe.py

4f0a19c

Update test_config.yaml

adbee56

Update fused_moe.py

cecfa10

Update test.txt

c1d888a

Merge branch 'habana_main' into rebase_0.9.0.1

51e73ad

Add runtime FP8 conversion for gaudi2 (#1505)

555a209

Signed-off-by: kwisniewski98 <kwisniewski@habana.ai>

Rebase 0.9.0.1 (#1507)

4d5ee6c

[SW-234006] Fix requirements (1.22.0) (#1530)

79ef0d5

See https://jira.habana-labs.com/browse/SW-234006?focusedId=1073396&page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel#comment-1073396

update force channel fp8 check

ef739fe

Signed-off-by: yiliu30 <yi4.liu@intel.com>

yiliu30 requested review from kzawora-intel, madamczyk-intel, michalkuligowski, mgawarkiewicz-intel, vivekgoe, afierka-intel, xuechendi, jikunshang and mswiniarsk as code owners July 10, 2025 02:17

yiliu30 closed this Jul 10, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Update Force Channel FP8 Check #1562

Update Force Channel FP8 Check #1562

Uh oh!

yiliu30 commented Jul 10, 2025

Uh oh!

Uh oh!

Update Force Channel FP8 Check #1562

Update Force Channel FP8 Check #1562

Uh oh!

Conversation

yiliu30 commented Jul 10, 2025

Uh oh!

Uh oh!