How to use multi-gpu quantization #2

rexmxw02 · 2024-11-07T12:58:31Z

How to use multi-gpu quantization
when i operate :
export MODEL_NAME_OR_PATH="/llama2_70B"
export OUTPUT_DIR="/llama2_70B_quantize"
export QUANTIZATION_SCHEME="fp8"
export DEVICE="cuda:0,1,2,3,4"
export DEVICE="cuda:0,1,2,3" # Device to run the quantization process. Defaults to "cuda:0".
fmo quantize --dataset-name-or-path $DATASET_NAME_OR_PATH --model-name-or-path $MODEL_NAME_OR_PATH --output-dir $OUTPUT_DIR --mode $QUANTIZATION_SCHEME --device $DEVICE

it shows fmo.main ERROR: Invalid device string: 'cuda:0,1,2,3',so how can i do?
Loading checkpoint shards: 100%|███████████████████████████████████████| 4/4 [00:00<00:00, 13.39it/s]
2024-11-07 12:39:35,853.00853: fmo.main ERROR: Invalid device string: 'cuda:0,1,2,3'

seungduk-yanolja · 2024-11-13T05:49:19Z

+1
it seems a bit slow with a single GPU

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

How to use multi-gpu quantization #2

How to use multi-gpu quantization #2

rexmxw02 commented Nov 7, 2024

seungduk-yanolja commented Nov 13, 2024

How to use multi-gpu quantization #2

How to use multi-gpu quantization #2

Comments

rexmxw02 commented Nov 7, 2024

seungduk-yanolja commented Nov 13, 2024