[README] Update README.md. (#434)

Duyi-Wang · web-flow · commit 669bd664d433 · 2024-06-05T14:02:15.000+08:00
diff --git a/README.md b/README.md
@@ -265,7 +265,7 @@ Use MPI to run in the multi-ranks mode, please install oneCCL firstly.
 - Here is a example on local. 
   ```bash
   # or export LD_PRELOAD=libiomp5.so manually
-  export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+  export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
   OMP_NUM_THREADS=48 mpirun \
     -n 1 numactl -N 0  -m 0 ${RUN_WORKLOAD} : \
     -n 1 numactl -N 1  -m 1 ${RUN_WORKLOAD} 
@@ -313,7 +313,7 @@ A web demo based on [Gradio](https://www.gradio.app/) is provided in repo. Now s
 ```bash
 # Recommend preloading `libiomp5.so` to get a better performance.
 # or LD_PRELOAD=libiomp5.so manually, `libiomp5.so` file will be in `3rdparty/mkl/lib` directory after build xFasterTransformer.
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 python examples/web_demo/ChatGLM.py \
                       --dtype=bf16 \
                       --token_path=${TOKEN_PATH} \
@@ -334,12 +334,12 @@ pip install vllm-xft
 ***Notice: Preload libiomp5.so is required!***
 ```bash
 # Preload libiomp5.so by following cmd or LD_PRELOAD=libiomp5.so manually
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 
 python -m vllm.entrypoints.openai.api_server \
         --model ${XFT_MODEL} \
         --tokenizer ${TOKENIZER_DIR} \
-        --dtype fp16 \
+        --dtype bf16 \
         --kv-cache-dtype fp16 \
         --served-model-name xft \
         --port 8000 \
@@ -348,7 +348,7 @@ python -m vllm.entrypoints.openai.api_server \
 For multi-rank mode, please use `python -m vllm.entrypoints.slave` as slave and keep params of slaves align with master.
 ```bash
 # Preload libiomp5.so by following cmd or LD_PRELOAD=libiomp5.so manually
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 
 OMP_NUM_THREADS=48 mpirun \
         -n 1 numactl --all -C 0-47 -m 0 \
diff --git a/README_CN.md b/README_CN.md
@@ -266,7 +266,7 @@ xFasterTransformer 会自动检查 MPI 环境，或者使用 `SINGLE_INSTANCE=1`
 - 下面是一个本地环境的运行方式示例。 
   ```bash
   # 或者手动预加载 export LD_PRELOAD=libiomp5.so
-  export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+  export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
   OMP_NUM_THREADS=48 mpirun \
     -n 1 numactl -N 0  -m 0 ${RUN_WORKLOAD} : \
     -n 1 numactl -N 1  -m 1 ${RUN_WORKLOAD} 
@@ -315,7 +315,7 @@ while (1) {
 # 推荐预加载`libiomp5.so`来获得更好的性能。
 # `libiomp5.so`文件会位于编译后`3rdparty/mklml/lib`文件夹中。
 # 或者手动预加载LD_PRELOAD=libiomp5.so manually, `libiomp5.so`文件会位于编译后`3rdparty/mkl/lib`文件夹中
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 python examples/web_demo/ChatGLM.py \
                       --dtype=bf16 \
                       --token_path=${TOKEN_PATH} \
@@ -337,12 +337,12 @@ pip install vllm-xft
 ***注意：需要预加载 `libiomp5`！***
 ```bash
 # 通过以下命令或手动设置 LD_PRELOAD=libiomp5.so 预加载 libiomp5.so
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 
 python -m vllm.entrypoints.openai.api_server \
         --model ${XFT_MODEL} \
         --tokenizer ${TOKENIZER_DIR} \
-        --dtype fp16 \
+        --dtype bf16 \
         --kv-cache-dtype fp16 \
         --served-model-name xft \
         --port 8000 \
@@ -351,7 +351,7 @@ python -m vllm.entrypoints.openai.api_server \
 对于分布式模式，请使用 `python -m vllm.entrypoints.slave` 作为从节点，并确保从节点的参数与主节点一致。
 ```bash
 # 通过以下命令或手动设置 LD_PRELOAD=libiomp5.so 预加载 libiomp5.so
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 
 OMP_NUM_THREADS=48 mpirun \
         -n 1 numactl --all -C 0-47 -m 0 \
diff --git a/examples/cpp/README.md b/examples/cpp/README.md
@@ -11,7 +11,7 @@ Please refer to [Prepare model](../README.md#prepare-model)
 ```bash
 # Recommend preloading `libiomp5.so` to get a better performance.
 # or LD_PRELOAD=libiomp5.so manually, `libiomp5.so` file will be in `3rdparty/mkl/lib` directory after build xFasterTransformer.
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 
 # run single instance like
 ./example -m ${MODEL_PATH} -t ${TOKEN_PATH}
diff --git a/examples/pytorch/README.md b/examples/pytorch/README.md
@@ -20,7 +20,7 @@ Please refer to [Prepare model](../README.md#prepare-model)
 ```bash
 # Recommend preloading `libiomp5.so` to get a better performance.
 # or LD_PRELOAD=libiomp5.so manually, `libiomp5.so` file will be in `3rdparty/mkl/lib` directory after build xFasterTransformer.
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 
 # run single instance like
 python demo.py --dtype=bf16 --token_path=${TOKEN_PATH} --model_path=${MODEL_PATH}
diff --git a/examples/web_demo/README.md b/examples/web_demo/README.md
@@ -29,7 +29,7 @@ After the web server started, open the output URL in the browser to use the demo
 ```bash
 # Recommend preloading `libiomp5.so` to get a better performance.
 # or LD_PRELOAD=libiomp5.so manually, `libiomp5.so` file will be in `3rdparty/mkl/lib` directory after build xFasterTransformer.
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 
 # run single instance like
 python examples/web_demo/ChatGLM.py \
diff --git a/serving/vllm-xft.md b/serving/vllm-xft.md
@@ -12,12 +12,12 @@ pip install vllm-xft
 ### Serving(OpenAI Compatible Server)
 ```shell
 # Preload libiomp5.so by following cmd or LD_PRELOAD=libiomp5.so manually
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 
 python -m vllm.entrypoints.openai.api_server \
         --model ${XFT_MODEL} \
         --tokenizer ${TOKENIZER_DIR} \
-        --dtype fp16 \
+        --dtype bf16 \
         --kv-cache-dtype fp16 \
         --served-model-name xft \
         --port 8000 \
@@ -51,7 +51,7 @@ Please keep params of slaves align with master.
 Here is a example on 2Socket platform, 48 cores pre socket.
 ```bash
 # Preload libiomp5.so by following cmd or LD_PRELOAD=libiomp5.so manually
-export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')`
+export $(python -c 'import xfastertransformer as xft; print(xft.get_env())')
 
 OMP_NUM_THREADS=48 mpirun \
         -n 1 numactl --all -C 0-47 -m 0 \