Name	Name	Last commit message	Last commit date
parent directory ..
01_adam	01_adam
1-bit_adam	1-bit_adam
1-bit_lamb	1-bit_lamb
nvidia	nvidia
pytorch_pretrained_bert	pytorch_pretrained_bert
turing	turing
NOTICE.txt	NOTICE.txt
README.md	README.md
bert_base.json	bert_base.json
bert_base_large_lr.json	bert_base_large_lr.json
bert_dataset_provider.py	bert_dataset_provider.py
bert_large.json	bert_large.json
bert_large_lamb.json	bert_large_lamb.json
bert_large_lamb_nvidia_data.json	bert_large_lamb_nvidia_data.json
bing_bert_dataset_provider.py	bing_bert_dataset_provider.py
data_worker.py	data_worker.py
deepspeed_bsz32k_lamb_config_seq512.json	deepspeed_bsz32k_lamb_config_seq512.json
deepspeed_bsz4k_progressive_layer_drop_config_seq128.json	deepspeed_bsz4k_progressive_layer_drop_config_seq128.json
deepspeed_bsz64k_lamb_config_seq128.json	deepspeed_bsz64k_lamb_config_seq128.json
deepspeed_train.py	deepspeed_train.py
ds_sa_train_bert_bsz64k_seq128.sh	ds_sa_train_bert_bsz64k_seq128.sh
ds_train_bert_bsz32k_seq512.sh	ds_train_bert_bsz32k_seq512.sh
ds_train_bert_bsz64k_seq128.sh	ds_train_bert_bsz64k_seq128.sh
ds_train_bert_nvidia_data_bsz32k_seq512.sh	ds_train_bert_nvidia_data_bsz32k_seq512.sh
ds_train_bert_nvidia_data_bsz64k_seq128.sh	ds_train_bert_nvidia_data_bsz64k_seq128.sh
ds_train_bert_progressive_layer_drop_bsz4k_seq128.sh	ds_train_bert_progressive_layer_drop_bsz4k_seq128.sh
glue_bert_base.json	glue_bert_base.json
glue_bert_large.json	glue_bert_large.json
nvidia_bert_dataset_provider.py	nvidia_bert_dataset_provider.py
requirements.txt	requirements.txt
run_glue_bert_base_finetune.sh	run_glue_bert_base_finetune.sh
run_glue_bert_large_finetune.sh	run_glue_bert_large_finetune.sh
run_glue_classifier_bert_base.py	run_glue_classifier_bert_base.py
run_glue_classifier_bert_large.py	run_glue_classifier_bert_large.py
timer.py	timer.py
utils.py	utils.py

Name

Last commit message

Last commit date

1-bit_adam

1-bit_lamb

nvidia

pytorch_pretrained_bert

bert_base_large_lr.json

bert_dataset_provider.py

bert_large.json

bert_large_lamb.json

bert_large_lamb_nvidia_data.json

bing_bert_dataset_provider.py

data_worker.py

deepspeed_bsz32k_lamb_config_seq512.json

deepspeed_bsz4k_progressive_layer_drop_config_seq128.json

deepspeed_bsz64k_lamb_config_seq128.json

deepspeed_train.py

ds_sa_train_bert_bsz64k_seq128.sh

ds_train_bert_bsz32k_seq512.sh

ds_train_bert_bsz64k_seq128.sh

ds_train_bert_nvidia_data_bsz32k_seq512.sh

ds_train_bert_nvidia_data_bsz64k_seq128.sh

ds_train_bert_progressive_layer_drop_bsz4k_seq128.sh

glue_bert_base.json

glue_bert_large.json

nvidia_bert_dataset_provider.py

requirements.txt

run_glue_bert_base_finetune.sh

run_glue_bert_large_finetune.sh

run_glue_classifier_bert_base.py

run_glue_classifier_bert_large.py

timer.py

utils.py

BERT pre-training

This repo contains DeepSpeed's version of BERT for pre-training.

Using DeepSpeed's optimized transformer kernels as the building block, we were able to achieve the fastest BERT training record: 44 minutes on 1,024 NVIDIA V100 GPUs, compared with the previous best published result of 67 minutes on the same number and generation of GPUs.

Brief overview and more details, see our press release.
Detailed technology deep dive, see our blog post.
Tutorial on how to reproduce our results, see our BERT pre-training tutorial.
The source code for our transformer kernels can be found in the DeepSpeed repo.

The fastest BERT training record reported above was achieved using internal datasets, which were not publicly available at the time of this release. However, the DeepSpeed BERT model can also be pre-trained using publicly available datasets from Nvidia. Instructions for preparing the datasets are available here. In addition, the following three files are provided in this repo to perform the complete pre-training of DeepSpeed BERT using the Nvidia datasets.

ds_train_bert_nvidia_data_bsz64k_seq128.sh script for phase 1 training
ds_train_bert_nvidia_data_bsz32k_seq512.sh script for phase 2 training
bert_large_lamb_nvidia_data.json for configuring the different parameters relating to the model, datasets, hyper-parameters, etc.

The scripts assume that the datasets are available in the path /workspace/bert. For reference, the default settings of these script and configuration files will pre-train the model to achieve EM/F1 finetuning scores of 83.57/90.62 on SQuAD.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

BERT pre-training

FilesExpand file tree

bing_bert

Directory actions

More options

Directory actions

More options

Latest commit

History

bing_bert

Folders and files

parent directory

README.md

BERT pre-training