[REQUEST] Use tp_parallel group for DeepSpeedZeroOptimizer instead of sp_process_group

**Is your feature request related to a problem? Please describe.**
`DeepSpeedZeroOptimizer` uses sp_process_group to partition gradient parameters. Is it possible to use tp_parallel group instead? Otherwise you store all parameter gradients on each tp gpu