Name	Name	Last commit message	Last commit date
Latest commit History 164 Commits
gptq	gptq
image	image
train	train
.gitignore	.gitignore
LICENSE	LICENSE
README.md	README.md
README_en.md	README_en.md
infer.py	infer.py
requirements.txt	requirements.txt

TigerBot

环境安装

conda create --name tigerbot python=3.8
conda activate tigerbot
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia

git clone https://github.com/TigerResearch/TigerBot
cd TigerBot
pip install -r requirements.txt

模型下载

Tigerbot-7B

Tigerbot-7B	Bits	memory(GB)
Tigerbot-7B-base	16	17.2
Tigerbot-7B-sft	16	17.2
Tigerbot-7B-sft-int4	4	8.5

Tigerbot-176B)

Tigerbot-176B	Bits	memory(GB)
Tigerbot-176B-sft	16	347.6
Tigerbot-176B-sft-int4	4	108.5

训练和推理

预训练

启动训练前安装 DeepSpeed

git clone https://github.com/microsoft/DeepSpeed/
cd DeepSpeed
rm -rf build
TORCH_CUDA_ARCH_LIST="8.0" DS_BUILD_CPU_ADAM=1 DS_BUILD_UTILS=1 pip install . \
--global-option="build_ext" --global-option="-j8" --no-cache -v \
--disable-pip-version-check 2>&1 | tee build.log

TORCH_CUDA_ARCH_LIST 根据你运行的 GPU 架构做调整，获取 TORCH_CUDA_ARCH_LIST

CUDA_VISIBLE_DEVICES=0 python -c "import torch; print(torch.cuda.get_device_capability())"

如果返回的结果是(8, 0)，那么 TORCH_CUDA_ARCH_LIST="8.0"

启动训练

deepspeed \
--include="localhost:0,1,2,3" \
./train_clm.py \
--deepspeed ./ds_config/ds_config_zero3.json \
--model_name_or_path ./tigerbot_560m \
--dataset_name TigerResearch/dev_pretrain \
--do_train \
--output_dir ./ckpt-clm \
--overwrite_output_dir \
--preprocess_num_workers 8 \
--num_train_epochs 5 \
--learning_rate 1e-5 \
--evaluation_strategy steps \
--eval_steps 10 \
--bf16 True \
--save_strategy steps \
--save_steps 10 \
--save_total_limit 2 \
--logging_steps 10 \
--tf32 True \
--per_device_train_batch_size 2 \
--per_device_eval_batch_size 2

微调

启动训练

deepspeed \
--include="localhost:0,1,2,3" \
./train_sft.py \
--deepspeed ./ds_config/ds_config_zero3.json \
--model_name_or_path ./tigerbot_560m \
--dataset_name TigerResearch/dev_sft \
--do_train \
--output_dir ./ckpt-sft \
--overwrite_output_dir \
--preprocess_num_workers 8 \
--num_train_epochs 5 \
--learning_rate 1e-5 \
--evaluation_strategy steps \
--eval_steps 10 \
--bf16 True \
--save_strategy steps \
--save_steps 10 \
--save_total_limit 2 \
--logging_steps 10 \
--tf32 True \
--per_device_train_batch_size 2 \
--per_device_eval_batch_size 2

推理

单卡推理

CUDA_VISIBLE_DEVICES=0 python infer.py --model_path ${MODEL_DIR}

多卡推理

CUDA_VISIBLE_DEVICES=0,1,2,3 python infer.py --model_path ${MODEL_DIR}

量化

我们使用GPTQ算法和GPTQ-for-LLaMa实现量化：

切换到 gptq 目录

cd gptq

模型量化

CUDA_VISIBLE_DEVICES=0 python tigerbot.py ${MODEL_DIR} c4 --wbits 4 --act-order --groupsize 128 --save tigerbot-4bit-128g.pt

量化模型单卡推理

CUDA_VISIBLE_DEVICES=0 python tigerbot_infer.py ${MODEL_DIR} --wbits 4 --groupsize 128 --load tigerbot-4bit-128g.pt

量化模型多卡推理

CUDA_VISIBLE_DEVICES=0,1 python tigerbot_infer.py ${MODEL_DIR} --wbits 4 --groupsize 128 --load tigerbot-4bit-128g.pt

开源数据集

预训练数据

中文开源预训练集 - 55G，包含中文书籍、中文互联网、中文百科 [hugging face]

英文开源预训练集 - 51G，包含英文书籍、英文互联网、英文百科 [hugging face]

类型	磁盘占用	来源
中文书籍	12G	自研
中文互联网	25G	自研
中文百科	19G	自研
英文书籍	22G	开源
英文互联网	6.9G	开源
英文百科	22G	开源
总量	105G

完整预训练数据占比如图所示:

中文书籍及代码细分:

微调数据

数据搜集

模型中使用的微调数据的搜集思想如下：

a. 参考 Alpaca,扩充中英文 seed_tasks,增加一些中文习惯种子问题，基于此生成 2m 中文(本次开源 0.5m)及 0.1m(本次开源 50k)

b. 基于人工写题及答案、网络搜集方式，整理加工问答集数据，在开源列表中标识为[自研]部分，本次开放部分数据

c. 基于各类公开数据集转换清洗，其中[自研*]部分，表示基于原始数据进行二次开发后得到，[开源]部分数据集一般原始数据即为较规整的问答数据，进行简单清洗得到

数据开源

指令数据集, 当前开源 120W 问答对，磁盘空间 1.1G (数据集开放到 huggingface）

类型	语言	数据集	数量	来源
alpaca 中文	中文	tigerbot-alpaca-zh-0.5m	0.5m	自研
百科问答	中文	tigerbot-wiki-qa-1k	1k	自研
名著问答	中文	tigerbot-book-qa-1k	1k	自研
猜谜语	中文	tigerbot-riddle-qa-1k	1k	自研
阅读理解	中文	tigerbot-superclue-c3-zh-5k	5k	自研*
问答	中文	tigerbot-HC3-zh-12k	12k	开源
知乎问答	中文	tigerbot-zhihu-zh-10k	10k	开源
alpaca 英文	英文	tigerbot-alpaca-en-50k	50k	自研
头脑风暴	英文	tigerbot-dolly-Brainstorming-en-1.7k	1.7k	开源
分类	英文	tigerbot-dolly-Classification-en-2k	2k	开源
数学问题	英文	tigerbot-gsm-8k-en	8k	开源
代码	英文	tigerbot-kaggle-leetcodesolutions-en-2k	2k	自研*
食谱生成	英文	tigerbot-kaggle-recipes-en-2k	2k	开源
病历生成	英文	tigerbot-mt-note-generation-en	450	开源
多轮对话	英文	tigerbot-OIG-multichat-en-50k	50k	自研*
综合问答	英文	tigerbot-stackexchange-qa-en-0.5m	0.5m	开源
wiki 问答	英文	tigerbot-wiki-qa-bart-en-10k	10k	开源
如何做类教程	英文	tigerbot-youtube-howto-en-50k	50k	开源
总量			120W 条

更多数据集陆续整理开放中...

领域数据

开放金融、法律、百科相关领域数据，作为 rethink 外部数据源

类型数量

金融-研报 5000 篇

金融-财报 1000 篇

法律 1 部(刑法）

百科 10W 词条

类型	数量
金融-研报	5000 篇
金融-财报	1000 篇
法律	1 部(刑法）
百科	10W 词条

测评

在 7 项 NLP 任务上进行模型测评，以 OpenAI-InstructGPT-6B-SFT 为基准，归一化并平均各模型的得分，结果如下：

API

TigerBot 提供了三种 API，包括 Chat-API，Plug-ins，Fine-Tunes。

调用示例

import requests

url = "https://api.tigerbot.com/bot-service/ft/call"

headers = {
  'Authorization': 'Bearer ' + API_KEY
}
payload = {
  'ftId': 'Your ftId',
  'text': '将以下中文翻译为英文：对此美国的政策制定者目前陷入了困境：一方面要促进增长，另一方面又得降低总债务水平'
}

response = requests.post(url, headers=headers, json=payload)

print(response.text)

{
  "code": 200,
  "msg": "操作成功",
  "data": {
    "result": [
      "The dilemma facing US policymakers is how to stimulate growth while lowering the level of total debt."
    ]
  }
}

Authentication

使用 API，需先在 TigerBot 平台上进行申请，申请通过后获取 API_KEY，即可快速训练体验

对话（Chat-API）

Chat-API 为 TigerBot 对外提供的可直接使用的 api，支持 Tigerbot-7B 和 Tigerbot-180B 两种模型的选择

插件（Plug-ins）

Rethink
TigerBot 提供的自研插件，可直接通过 api 进行调用
Custom Rethink
用户管理自己的数据，训练自己的插件

微调（Fine-Tunes）

无需代码，仅需按照数据要求管理上传自己的数据，即可快速训练出基于 TigerBot 大模型能力基础的自己的模型

Chat 案例【完整案例】

平台

产品链接

https://www.tigerbot.com

联系电话

021-63888086

联系邮箱

cong.fu@tigerobo.com

wei.cai@tigerobo.com

License

TigerResearch/TigerBot

Folders and files

Latest commit

History

Repository files navigation

TigerBot

最近更新

目录

环境安装

模型下载

训练和推理

预训练

启动训练

微调

启动训练

推理

单卡推理

多卡推理

量化

模型量化

量化模型单卡推理

量化模型多卡推理

开源数据集

预训练数据

微调数据

数据搜集

数据开源

领域数据

测评

API

调用示例

Authentication

对话（Chat-API）

插件（Plug-ins）

微调（Fine-Tunes）

Chat 案例 【完整案例】

平台

产品链接

联系电话

联系邮箱

企业微信

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 13

Languages

Chat 案例【完整案例】

Packages