Skip to content

Conversation

@ytivy
Copy link
Contributor

@ytivy ytivy commented Aug 7, 2024

No description provided.

@ytivy ytivy requested a review from odashi August 7, 2024 06:00
export PRETRAIN_TRANSFORMER_ENGINE_VERSION=1.4
export PRETRAIN_MEGATRON_TAG=nii-geniac
export PRETRAIN_TOKENIZER_TAG=Release-ver3.0b1
export PRETRAIN_TOKENIZER_TAG=v3.0b2
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ablationシート
の18-19行目では学習に3.0b1を使用し、評価に3.0b2を使用することになっています。こちらの設定は学習用なので、変更不要に見えます。

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

コメントが足りていませんでした。
Megatron -> HFのconvert時にHFのtokenizerを指定する必要があり、Release-ver3.0b1では修正版のv3.0b2 (hf tokenizer) が含まれていません。
convert スクリプトではMagatron-LMのスクリプトをベースとするため、事前学習モデルの環境構築スクリプトを利用しており、こちらの修正PRを出しました

Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

なるほど、了解です。

Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

approveしましたが、上記はスクリプトにコメントが書いてあった方がよいかもしれません。

Comment on lines +18 to 19
export PRETRAIN_TOKENIZER_TAG=v3.0b2

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
export PRETRAIN_TOKENIZER_TAG=v3.0b2
# Ensure the appropriate Huggingface tokenizer is included
export PRETRAIN_TOKENIZER_TAG=v3.0b2

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

今対応してしまった方が良さそうなので書いてみました
@odashi  良さそうならcommit(できます?), 他の表現を意図していたならsuggestionお願いします。

Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

@YumaTsuta ちょうど蔦さんのコメントへのリンクが取れるので、これをコメントに追加しておくのが親切だと思いました。
これ→ https://github.com/llm-jp/scripts/pull/12#discussion_r1708415209

@ytivy ytivy mentioned this pull request Aug 8, 2024
@ytivy ytivy merged commit 04723f6 into main Aug 8, 2024
@ytivy ytivy deleted the fix_tokenizer_tag branch August 8, 2024 10:20
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants