From NVIDIA Megatron-LM for visibility #18

RaymondLi0 · 2023-01-24T20:01:13Z

No description provided.

Signed-off-by: oliver könig <okoenig@nvidia.com>

…refill, and decode paths

Co-authored-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>

Co-authored-by: Jorge Albericio Latorre <jalbericiola@nvidia.com>

Co-authored-by: oliver könig <okoenig@nvidia.com> Co-authored-by: Mcore Bot <mcore-bot@nvidia.com>

…e-processing the state dict for DCP.

Co-authored-by: Siddharth Singh <sidsingh@nvidia.com> Co-authored-by: Mcore Bot <mcore-bot@nvidia.com>

… Management" This reverts commit f759111.

Signed-off-by: oliver könig <okoenig@nvidia.com>

Co-authored-by: Helen Ngo <helenn@nvidia.com>

Signed-off-by: oliver könig <okoenig@nvidia.com>

Co-authored-by: Mcore Bot <mcore-bot@nvidia.com>

Signed-off-by: oliver könig <okoenig@nvidia.com>

Author: Kan Zhu <kanz@nvidia.com> Signed-off-by: oliver könig <okoenig@nvidia.com>

Signed-off-by: oliver könig <okoenig@nvidia.com>

Co-authored-by: Chen-Han Yu <chenhany@cw-dfw-cs-001-login-01.cm.cluster>

…acts

Signed-off-by: oliver könig <okoenig@nvidia.com>

Signed-off-by: Pablo Garay <pagaray@nvidia.com>

Signed-off-by: Keshav Santhanam <ksanthanam@nvidia.com>

Signed-off-by: Pablo Garay <pagaray@nvidia.com>

Co-authored-by: Roger Waleffe <rwaleffe@nvidia.com> Co-authored-by: Keshav Santhanam <ksanthanam@nvidia.com>

Signed-off-by: Asha Anoosheh <aanoosheh@nvidia.com>

This reverts commit 8463257.

Signed-off-by: oliver könig <okoenig@nvidia.com>

This reverts commit 0634924.

Signed-off-by: Pablo Garay <pagaray@nvidia.com>

Updated the default baseline commit hash for checks.

Signed-off-by: Ananth Subramaniam <ansubramania@nvidia.com> Co-authored-by: Jared Casper <155158+jaredcasper@users.noreply.github.com>

…2008) Signed-off-by: Keshav Santhanam <ksanthanam@nvidia.com>

Signed-off-by: Asha Anoosheh <aanoosheh@nvidia.com>

…ate (#2183) Signed-off-by: Keshav Santhanam <ksanthanam@nvidia.com>

Signed-off-by: dimapihtar <dpihtar@gmail.com>

Check-breaking was force merged given special circumstances/special need (requested to me directly)

…erence (#2008)" (#2360) Signed-off-by: Charlie Truong <chtruong@nvidia.com>

Co-authored-by: Robert Kirby <rkirby@nvidia.com> Co-authored-by: Robert Kirby <rkirby@cw-dfw-cs-001-vscode-01.cm.cluster> Co-authored-by: Jorge Albericio <jalbericiola@nvidia.com>

Co-authored-by: Robert Kirby <rkirby@nvidia.com> Co-authored-by: Robert Kirby <rkirby@cw-dfw-cs-001-vscode-01.cm.cluster> Co-authored-by: Jorge Albericio <jalbericiola@nvidia.com> Co-authored-by: Jon Barker <19699370+jon-barker@users.noreply.github.com>

Signed-off-by: Charlie Truong <chtruong@nvidia.com>

Signed-off-by: Ananth Subramaniam <ansubramania@nvidia.com>

Signed-off-by: Chen Cui <chcui@nvidia.com>

RaymondLi0 changed the base branch from multi-query-attention to before-merge June 20, 2023 20:12

RaymondLi0 changed the base branch from before-merge to multi-query-attention June 20, 2023 20:12

ko3n1g and others added 28 commits October 15, 2025 09:06

tests: Update golden values

15afa9f

Signed-off-by: oliver könig <okoenig@nvidia.com>

ci: Check deterministically

8a35969

Signed-off-by: oliver könig <okoenig@nvidia.com>

ADLR/megatron-lm!4240 - chore: Tool for upgrading deps

fdd0a8a

ADLR/megatron-lm!4218 - Refactor MambaMixer into separate training, p…

4e6e8b9

…refill, and decode paths

ADLR/megatron-lm!4208 - Added attribute to support latest TE

2c10442

Co-authored-by: Selvaraj Anandaraj <selvaraja@login-ptyche02.ptyche.clusters.nvidia.com>

ADLR/megatron-lm!4191 - Add sequence packing for RL

ee8e930

Co-authored-by: Jorge Albericio Latorre <jalbericiola@nvidia.com>

ADLR/megatron-lm!4228 - chore: Upgrade dependencies (2025-10-13)

e2d0c1b

Co-authored-by: oliver könig <okoenig@nvidia.com> Co-authored-by: Mcore Bot <mcore-bot@nvidia.com>

ADLR/megatron-lm!4226 - Use up-to-date model state dictionary when pr…

0ba8470

…e-processing the state dict for DCP.

ADLR/megatron-lm!4255 - ci: Cherrypick main into dev

cf2087c

ADLR/megatron-lm!4110 - Renaming Chunk to Block During Memory Management

f759111

Co-authored-by: Siddharth Singh <sidsingh@nvidia.com> Co-authored-by: Mcore Bot <mcore-bot@nvidia.com>

ADLR/megatron-lm!4160 - docs: Update installation

9a79a45

Revert "ADLR/megatron-lm!4110 - Renaming Chunk to Block During Memory…

bcdd591

… Management" This reverts commit f759111.

ci: Allow failure on merge-to-dev

90e3abd

Signed-off-by: oliver könig <okoenig@nvidia.com>

ADLR/megatron-lm!3816 - Moe padding inference

56818f9

Co-authored-by: Helen Ngo <helenn@nvidia.com>

ci: Restart jet jobs on failure

8156f26

Signed-off-by: oliver könig <okoenig@nvidia.com>

ci: Restart jet jobs on failure

6adc9e2

Signed-off-by: oliver könig <okoenig@nvidia.com>

ci: Retry on unknown_failure

807cd66

Signed-off-by: oliver könig <okoenig@nvidia.com>

ADLR/megatron-lm!4193 - Automate ModelOpt restore

2263b5d

ADLR/megatron-lm!4173 - Fix Sink Attention TP

3b1b9b2

Co-authored-by: Mcore Bot <mcore-bot@nvidia.com>

ADLR/megatron-lm!4279 - ci: Build for sm80

c9746e4

ADLR/megatron-lm!4194 - Inference: throughput tests

47d5049

chore: Add error message

572f019

Signed-off-by: oliver könig <okoenig@nvidia.com>

Replay !4110 - Renaming Chunk to Block During Memory Management

950aa43

Author: Kan Zhu <kanz@nvidia.com> Signed-off-by: oliver könig <okoenig@nvidia.com>

chore: Version bump 0.16.0

4666de7

Signed-off-by: oliver könig <okoenig@nvidia.com>

ADLR/megatron-lm!4169 - [OMNIML-2921] GPT-OSS Modelopt support

a2d8c80

Co-authored-by: Chen-Han Yu <chenhany@cw-dfw-cs-001-login-01.cm.cluster>

ADLR/megatron-lm!4298 - ci: Refactor testsytem - Removal of JET Artif…

adc69db

…acts

build: Upgrade jet-client

5814a00

Signed-off-by: oliver könig <okoenig@nvidia.com>

build: Upgrade JET

bacc707

Signed-off-by: oliver könig <okoenig@nvidia.com>

pablo-garay and others added 30 commits November 19, 2025 20:56

feat: check: api backwards compatibility (#2251)

712dff8

Signed-off-by: Pablo Garay <pagaray@nvidia.com>

Add MambaInferenceStateConfig dataclass (#2265)

6c8cdd5

Signed-off-by: Keshav Santhanam <ksanthanam@nvidia.com>

Fix typo in inference example (#2311)

dc473f9

Signed-off-by: Keshav Santhanam <ksanthanam@nvidia.com>

feat: initialization of API backward compatibility verification (#2310)

7dec856

Signed-off-by: Pablo Garay <pagaray@nvidia.com>

Fix Mamba TP and remove confusing legacy initialization (#2202)

e4b7259

Co-authored-by: Roger Waleffe <rwaleffe@nvidia.com> Co-authored-by: Keshav Santhanam <ksanthanam@nvidia.com>

Refactor KD to use ModelOpt plugins file (#2305)

8463257

Signed-off-by: Asha Anoosheh <aanoosheh@nvidia.com>

Revert "Refactor KD to use ModelOpt plugins file (#2305)"

7e18da2

This reverts commit 8463257.

Fix dynamic context syntax and remove redundant tensors (#2336)

8e830a1

Improve asyncio exception handling (#2300)

475d7fa

ci: Upload to testpypi only on main (#2342)

5ab6392

Signed-off-by: oliver könig <okoenig@nvidia.com>

implement graph config (#2203)

0634924

Revert "implement graph config (#2203)"

ddc55cd

This reverts commit 0634924.

feat: required check adjustment (#2350)

f7fb5ec

Signed-off-by: Pablo Garay <pagaray@nvidia.com>

Change default baseline commit for api compat check

f426230

Updated the default baseline commit hash for checks.

fix: load iteration 0 for release checkpoints (#2351)

f07cb14

Signed-off-by: Ananth Subramaniam <ansubramania@nvidia.com> Co-authored-by: Jared Casper <155158+jaredcasper@users.noreply.github.com>

Break apart dynamic inference step into 2 methods (#2192)

81a87e2

Bugfix for Mamba with Chunked-Prefill (#2293)

c90160d

Explicitly zero out padding token activations for dynamic inference (#…

c9d2c8f

…2008) Signed-off-by: Keshav Santhanam <ksanthanam@nvidia.com>

Refactor KD to use ModelOpt plugins file (v2) (#2355)

63d4e7d

Signed-off-by: Asha Anoosheh <aanoosheh@nvidia.com>

Prevent unnecessarily overwriting the default Hugging Face chat templ…

29a810e

…ate (#2183) Signed-off-by: Keshav Santhanam <ksanthanam@nvidia.com>

add FIM dataset support (#2291)

7994405

Signed-off-by: dimapihtar <dpihtar@gmail.com>

Update DEFAULT_BASELINE in workflow configuration

e35495d

Check-breaking was force merged given special circumstances/special need (requested to me directly)

Revert "Explicitly zero out padding token activations for dynamic inf…

233b5b0

…erence (#2008)" (#2360) Signed-off-by: Charlie Truong <chtruong@nvidia.com>

Clean up DP coord code & unit test (#2277)

90c8536

[4/4] Merge Megatron-RL into LM (#2002)

8daf046

Co-authored-by: Robert Kirby <rkirby@nvidia.com> Co-authored-by: Robert Kirby <rkirby@cw-dfw-cs-001-vscode-01.cm.cluster> Co-authored-by: Jorge Albericio <jalbericiola@nvidia.com>

ci: Update backwards compat check baseline to 53bbf7a (#2361)

8954e04

Signed-off-by: Charlie Truong <chtruong@nvidia.com>

Account for test regression caused by prints (#2354)

d313c6d

Remove dependency on megatron.training within megatron.core (#2274)

14464d1

Signed-off-by: Ananth Subramaniam <ansubramania@nvidia.com>

Fixes for gpt-oss (#2038)

9873958

Signed-off-by: Chen Cui <chcui@nvidia.com>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

From NVIDIA Megatron-LM for visibility #18

From NVIDIA Megatron-LM for visibility #18

Uh oh!

RaymondLi0 commented Jan 24, 2023

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

34 participants

From NVIDIA Megatron-LM for visibility #18

Are you sure you want to change the base?

From NVIDIA Megatron-LM for visibility #18

Uh oh!

Conversation

RaymondLi0 commented Jan 24, 2023

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

34 participants