Skip to content

Commit ccc65dd

Browse files
author
jimmy.xj
committed
Update README.md
1 parent d703bae commit ccc65dd

File tree

2 files changed

+54
-5
lines changed

2 files changed

+54
-5
lines changed

README.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -252,7 +252,7 @@ explanation: According to the analysis, the value 265 in the given time series a
252252
👀 👀The data format of ToolLearning samples is compatible with OpenAI's Function Calling.
253253

254254
Please refer to [tool_learning_info.md](resources/tool_learning_info.md) for details.
255-
255+
<br>
256256

257257
## 🚀 How to Evaluate
258258
If you need to test your own huggingface-formatted model, the overall steps are as follows:

README_zh.md

Lines changed: 53 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -8,18 +8,20 @@
88

99
DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集。我们希望DevOps-Eval能够帮助开发者,尤其是DevOps领域的开发者,追踪进展并分析他们拥有的DevOps大模型的优势和不足之处。
1010

11-
📚 该仓库包含与DevOps和AIOps相关的问题和练习。
11+
📚 该仓库包含与DevOps和AIOps相关的问题和练习, 还添加了关于ToolLearning相关的样本
1212

13-
💥 目前有 5977 个多项选择题,根据DevOps的通用流程将其归纳未8个模块,如[下图](images/data_info.png)所示。
13+
💥 目前有 **7486** 个多项选择题,根据DevOps的通用流程将其归纳未8个模块,如[下图](images/data_info.png)所示。
1414

15-
🔥 2840,覆盖的场景包括**日志解析****时序异常检测****时序分类****时序预测****根因分析**
15+
🔥 AIOps样本总计 **2840**,覆盖的场景包括**日志解析****时序异常检测****时序分类****时序预测****根因分析**
1616

17+
🔧 ToolLearning样本 **1509** 个,涵盖59个领域,总计 239 种工具类别。
1718

1819
<p align="center"> <a href="resources/devops_diagram_zh.jpg"> <img src="images/data_info.png" style="width: 100%;" id="data_info"></a></p>
1920

2021

2122
## 🔔 更新
22-
* **[2023.11.27]** 增加运维场景样本487例、时序预测样本640例;同步更新评测排行版
23+
* **[2023.12.27]** 新增1509个ToolLearning样本,发布了相应的评测排行榜
24+
* **[2023.11.27]** 增加运维场景样本487例、时序预测样本640例;同步更新评测排行榜
2325
* **[2023.10.30]** 增加针对AIOps场景的评测排行榜
2426
* **[2023.10.25]** 增加AIOps样本,包含日志解析、时序异常检测、时序分类和根因分析
2527
* **[2023.10.18]** DevOps-Eval发布大模型评测排行版
@@ -30,13 +32,18 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
3032
- [🏆 排行榜](#-排行榜)
3133
- [👀 DevOps](#-devops)
3234
- [🔥 AIOps](#-aiops)
35+
- [🔧 ToolLearning](#-toollearning)
3336
- [⏬ 数据](#-数据)
3437
- [👀 说明](#-说明)
3538
- [🔥 AIOps样本示例](#-AIOps样本示例)
39+
- [🔧 ToolLearning样本示例](#-toollearning样本示例)
3640
- [🚀 如何进行测试](#-如何进行测试)
3741
- [🧭 TODO](#-todo)
3842
- [🏁 Licenses](#-licenses)
3943
- [😃 引用](#-引用)
44+
- [🗂 Miscellaneous](#-miscellaneous)
45+
- [✨ Star History](#-star-history)
46+
- [🤝 Friendship Links](#-friendship-links)
4047

4148
## 🏆 排行榜
4249
以下是我们获得的初版评测结果,包括多个开源模型的zero-shot和five-shot准确率。我们注意到,对于大多数指令模型来说,five-shot的准确率要优于zero-shot。
@@ -83,6 +90,9 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
8390

8491

8592
### 🔥 AIOps
93+
94+
<details>
95+
8696
#### Zero Shot
8797
| **模型** | 日志解析 | 根因分析 | 时序异常检测 | 时序分类 | 时序预测 | **平均分** |
8898
|:-------------------:|:-----:|:----:|:------:|:----:|:-----:|:-------:|
@@ -119,6 +129,28 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
119129
| Internlm-7B—Chat | 62.57 | 12.8 | 22.33 | 21 | 50.31 | 36.69 |
120130
| Internlm-7B—Base | 48 | 33.2 | 29 | 35 | 31.56 | 35.85 |
121131

132+
</details>
133+
134+
### 🔧 ToolLearning
135+
<details>
136+
137+
| **FuncCall-Filler** | dataset_name | fccr | 1-fcffr | 1-fcfnr | 1-fcfpr | 1-fcfnir | aar |
138+
|:-------------------:| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
139+
| Qwen-14b-chat | luban | 98.37 | 99.73 | 99.86 | 98.78 | 100 | 81.58 |
140+
| Qwen-7b-chat | luban | 99.46 | 99.86 | 100 | 99.59 | 100 | 79.25 |
141+
| Baichuan-7b-chat | luban | 97.96 | 99.32 | 100 | 98.64 | 100 | 89.53 |
142+
| Internlm-chat-7b | luban | 94.29 | 95.78 | 100 | 98.5 | 100 | 88.19 |
143+
| Qwen-14b-chat | fc_data | 98.78 | 99.73 | 100 | 99.05 | 100 | 94.7 |
144+
| Qwen-7b-chat | fc_data | 98.1 | 99.87 | 99.73 | 98.5 | 100 | 93.14 |
145+
| Baichuan-7b-chat | fc_data | 98.91 | 99.87 | 99.87 | 99.18 | 100 | 89.5 |
146+
| Internlm-chat-7b | fc_data | 61 | 100 | 97.68 | 63.32 | 100 | 69.46 |
147+
| CodeLLaMa-7b | fc_data | 50.58 | 100 | 98.07 | 52.51 | 100 | 63.59 |
148+
| CodeFuse-7b-16k | fc_data | 60.23 | 100 | 97.3 | 62.93 | 99.61 | 61.12 |
149+
| CodeFuse-7b-4k | fc_data | 47.88 | 100 | 96.14 | 51.74 | 99.61 | 61.85 |
150+
151+
</details>
152+
153+
122154
## ⏬ 数据
123155
#### 下载
124156
* 方法一:下载zip压缩文件(你也可以直接用浏览器打开下面的链接):
@@ -214,6 +246,10 @@ D: 12
214246
answer: D
215247
explanation: 根据分析,题目中的时间序列在12点出的值265要明显大于周围数据,存在着突增现象,因此选择D是正确的。
216248
```
249+
#### 🔧 ToolLearning样本示例
250+
工具学习样本的数据格式与OpenAI的函数调用格式兼容。
251+
详情请参阅[tool_learning_info_zh.md](resources/tool_learning_info_zh.md)。
252+
<br>
217253
218254
## 🚀 如何进行测试
219255
如果需要在自己的 HuggingFace 格式的模型上进行测试的话,总的步骤分为如下几步:
@@ -283,6 +319,7 @@ python src/run_eval.py \
283319
## 🧭 TODO
284320
- [x] 添加AIOps样本
285321
- [x] 添加AIOps场景,比如**时间预测**
322+
- [x] 增加 **ToolLearning** 样本
286323
- [ ] 当前各类别样本量不平均,后续进一步增加样本数量
287324
- [ ] 增加困难程度的样本集
288325
- [ ] 增加样本的英文版本
@@ -302,3 +339,15 @@ Coming soon...
302339

303340
<br>
304341
<br>
342+
343+
344+
## 🗂 Miscellaneous
345+
346+
### ✨ Star History
347+
[![Star History Chart](https://api.star-history.com/svg?repos=codefuse-ai/codefuse-devops-eval&type=Date)](https://star-history.com/#codefuse-ai/codefuse-devops-eval&Date)
348+
349+
### 🤝 Friendship Links
350+
- [Codefuse-ChatBot](https://github.com/codefuse-ai/codefuse-chatbot)
351+
- Codefuse-ChatBot is an open-source AI smart assistant designed to support the software development lifecycle with conversational access to tools, knowledge, and platform integration.
352+
- [Awesome AIGC Tutorials](https://github.com/luban-agi/Awesome-AIGC-Tutorials)
353+
- Awesome AIGC Tutorials houses a curated collection of tutorials and resources spanning across Large Language Models, AI Painting, and related fields.

0 commit comments

Comments
 (0)