用于制作微调数据集来训练我们Fintech-Dreamer/FinSynth: 基于Open WebUI框架实现的金融大模型交互平台大模型
下载仓库
git clone https://github.com/Fintech-Dreamer/FinSynth-Data-Processing.git
cd FinSynth-Data-Processing运行项目(注意修改main和params文件,具体见后面)
conda create -n FinSynth_data_processing python=3.11
conda activate FinSynth_data_processing
pip install -r requirements.txt -U
python main.py修改文件
-
建立自己的params.py文件,具体参考params_example.py
-
修改main的主程序(if __name__ == "__main__")
-
初步运行(生成智能客服训练数据集)
file_converter = FileConverter(["demo.pdf"]) file_converter.file_to_json_lists() file_converter.json_lists_to_QA_pairs("chatbot", time_sleep=0, lable=10, embed_model_name="BAAI/bge-m3")
-
运行多个文件(生成智能客服训练数据集)
file_converter = FileConverter(["demo.pdf","demo.csv"]) file_converter.file_to_json_lists() file_converter.json_lists_to_QA_pairs("chatbot", time_sleep=0, lable=10, embed_model_name="BAAI/bge-m3")
-
生成欺诈检测或合约法规数据集
file_converter = FileConverter(["demo.pdf"]) file_converter.file_to_json_lists() QA_pairs = file_converter.json_lists_to_QA_pairs("fraud", time_sleep=0) # QA_pairs = file_converter.json_lists_to_QA_pairs("compliance", time_sleep=0)
-
将生成的结构化json和最终问答对csv保存
file_converter = FileConverter(["demo.pdf","demo.csv"]) file_converter.file_to_json_lists() file_converter.save_json_lists() file_converter.json_lists_to_QA_pairs("chatbot", time_sleep=0, lable=10, embed_model_name="BAAI/bge-m3") file_converter.save_QA_pairs()
-
读取刚生成的结构化json直接生成问答对
file_converter = FileConverter([]) file_converter.read_json_lists("output.json_1.json") file_converter.json_lists_to_QA_pairs("chatbot", time_sleep=0, lable=10, embed_model_name="BAAI/bge-m3") file_converter.save_QA_pairs()
-
运行文件需要从huggingface下载模型可能需要VPN
可以转化的数据类型:
- 文本文件 (.txt, .md等)
- PDF文档
- Word文档 (.doc, .docx)
- PowerPoint演示文稿 (.ppt, .pptx)
- 图像文件 (.jpg, .png等)
- HTML网页
- XML文件
- 音频文件
- 用Unstructured先将非结构化文档分块存储到json lists
- 利用大模型将每一块生成问答对最终存储到csv文件
- 在智能客服时利用RAG技术增强生成,过程如下
- 先读取已经结构化的json lists,他是很多个分块的区域,将其进行基本的处理。
- 先利用所有块生成所有问题。
- 遍历每一个问题,然后选取相应的正文和上下lable(自定义参数)个文章切块,利用向量检索技术(RAG)找到和问题相应的知识背景,最终生成更优质的答案。
- 更多技术细节请咨询Fintech Dreamer 组织
