8
8
9
9
DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集。我们希望DevOps-Eval能够帮助开发者,尤其是DevOps领域的开发者,追踪进展并分析他们拥有的DevOps大模型的优势和不足之处。
10
10
11
- 📚 该仓库包含与DevOps和AIOps相关的问题和练习。
11
+ 📚 该仓库包含与DevOps和AIOps相关的问题和练习, 还添加了关于ToolLearning相关的样本 。
12
12
13
- 💥 目前有 5977 个多项选择题,根据DevOps的通用流程将其归纳未8个模块,如[ 下图] ( images/data_info.png ) 所示。
13
+ 💥 目前有 ** 7486 ** 个多项选择题,根据DevOps的通用流程将其归纳未8个模块,如[ 下图] ( images/data_info.png ) 所示。
14
14
15
- 🔥 2840,覆盖的场景包括** 日志解析** 、** 时序异常检测** 、** 时序分类** 、** 时序预测** 和** 根因分析** 。
15
+ 🔥 AIOps样本总计 ** 2840** 个 ,覆盖的场景包括** 日志解析** 、** 时序异常检测** 、** 时序分类** 、** 时序预测** 和** 根因分析** 。
16
16
17
+ 🔧 ToolLearning样本 ** 1509** 个,涵盖59个领域,总计 239 种工具类别。
17
18
18
19
<p align =" center " > <a href =" resources/devops_diagram_zh.jpg " > <img src =" images/data_info.png " style =" width : 100% ;" id =" data_info " ></a ></p >
19
20
20
21
21
22
## 🔔 更新
22
- * ** [ 2023.11.27] ** 增加运维场景样本487例、时序预测样本640例;同步更新评测排行版
23
+ * ** [ 2023.12.27] ** 新增1509个ToolLearning样本,发布了相应的评测排行榜
24
+ * ** [ 2023.11.27] ** 增加运维场景样本487例、时序预测样本640例;同步更新评测排行榜
23
25
* ** [ 2023.10.30] ** 增加针对AIOps场景的评测排行榜
24
26
* ** [ 2023.10.25] ** 增加AIOps样本,包含日志解析、时序异常检测、时序分类和根因分析
25
27
* ** [ 2023.10.18] ** DevOps-Eval发布大模型评测排行版
@@ -30,13 +32,18 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
30
32
- [ 🏆 排行榜] ( #-排行榜 )
31
33
- [ 👀 DevOps] ( #-devops )
32
34
- [ 🔥 AIOps] ( #-aiops )
35
+ - [ 🔧 ToolLearning] ( #-toollearning )
33
36
- [ ⏬ 数据] ( #-数据 )
34
37
- [ 👀 说明] ( #-说明 )
35
38
- [ 🔥 AIOps样本示例] ( #-AIOps样本示例 )
39
+ - [ 🔧 ToolLearning样本示例] ( #-toollearning样本示例 )
36
40
- [ 🚀 如何进行测试] ( #-如何进行测试 )
37
41
- [ 🧭 TODO] ( #-todo )
38
42
- [ 🏁 Licenses] ( #-licenses )
39
43
- [ 😃 引用] ( #-引用 )
44
+ - [ 🗂 Miscellaneous] ( #-miscellaneous )
45
+ - [ ✨ Star History] ( #-star-history )
46
+ - [ 🤝 Friendship Links] ( #-friendship-links )
40
47
41
48
## 🏆 排行榜
42
49
以下是我们获得的初版评测结果,包括多个开源模型的zero-shot和five-shot准确率。我们注意到,对于大多数指令模型来说,five-shot的准确率要优于zero-shot。
@@ -83,6 +90,9 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
83
90
84
91
85
92
### 🔥 AIOps
93
+
94
+ <details >
95
+
86
96
#### Zero Shot
87
97
| ** 模型** | 日志解析 | 根因分析 | 时序异常检测 | 时序分类 | 时序预测 | ** 平均分** |
88
98
| :-------------------:| :-----:| :----:| :------:| :----:| :-----:| :-------:|
@@ -119,6 +129,28 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
119
129
| Internlm-7B—Chat | 62.57 | 12.8 | 22.33 | 21 | 50.31 | 36.69 |
120
130
| Internlm-7B—Base | 48 | 33.2 | 29 | 35 | 31.56 | 35.85 |
121
131
132
+ </details >
133
+
134
+ ### 🔧 ToolLearning
135
+ <details >
136
+
137
+ | ** FuncCall-Filler** | dataset_name | fccr | 1-fcffr | 1-fcfnr | 1-fcfpr | 1-fcfnir | aar |
138
+ | :-------------------:| :---: | :---: | :---: | :---: | :---: | :---: | :---: |
139
+ | Qwen-14b-chat | luban | 98.37 | 99.73 | 99.86 | 98.78 | 100 | 81.58 |
140
+ | Qwen-7b-chat | luban | 99.46 | 99.86 | 100 | 99.59 | 100 | 79.25 |
141
+ | Baichuan-7b-chat | luban | 97.96 | 99.32 | 100 | 98.64 | 100 | 89.53 |
142
+ | Internlm-chat-7b | luban | 94.29 | 95.78 | 100 | 98.5 | 100 | 88.19 |
143
+ | Qwen-14b-chat | fc_data | 98.78 | 99.73 | 100 | 99.05 | 100 | 94.7 |
144
+ | Qwen-7b-chat | fc_data | 98.1 | 99.87 | 99.73 | 98.5 | 100 | 93.14 |
145
+ | Baichuan-7b-chat | fc_data | 98.91 | 99.87 | 99.87 | 99.18 | 100 | 89.5 |
146
+ | Internlm-chat-7b | fc_data | 61 | 100 | 97.68 | 63.32 | 100 | 69.46 |
147
+ | CodeLLaMa-7b | fc_data | 50.58 | 100 | 98.07 | 52.51 | 100 | 63.59 |
148
+ | CodeFuse-7b-16k | fc_data | 60.23 | 100 | 97.3 | 62.93 | 99.61 | 61.12 |
149
+ | CodeFuse-7b-4k | fc_data | 47.88 | 100 | 96.14 | 51.74 | 99.61 | 61.85 |
150
+
151
+ </details >
152
+
153
+
122
154
## ⏬ 数据
123
155
#### 下载
124
156
* 方法一:下载zip压缩文件(你也可以直接用浏览器打开下面的链接):
@@ -214,6 +246,10 @@ D: 12
214
246
answer: D
215
247
explanation: 根据分析,题目中的时间序列在12点出的值265要明显大于周围数据,存在着突增现象,因此选择D是正确的。
216
248
```
249
+ #### 🔧 ToolLearning样本示例
250
+ 工具学习样本的数据格式与OpenAI的函数调用格式兼容。
251
+ 详情请参阅[tool_learning_info_zh.md](resources/tool_learning_info_zh.md)。
252
+ <br>
217
253
218
254
## 🚀 如何进行测试
219
255
如果需要在自己的 HuggingFace 格式的模型上进行测试的话,总的步骤分为如下几步:
@@ -283,6 +319,7 @@ python src/run_eval.py \
283
319
## 🧭 TODO
284
320
- [x] 添加AIOps样本
285
321
- [x] 添加AIOps场景,比如** 时间预测**
322
+ - [x] 增加 ** ToolLearning** 样本
286
323
- [ ] 当前各类别样本量不平均,后续进一步增加样本数量
287
324
- [ ] 增加困难程度的样本集
288
325
- [ ] 增加样本的英文版本
@@ -302,3 +339,15 @@ Coming soon...
302
339
303
340
<br >
304
341
<br >
342
+
343
+
344
+ ## 🗂 Miscellaneous
345
+
346
+ ### ✨ Star History
347
+ [ ![ Star History Chart] ( https://api.star-history.com/svg?repos=codefuse-ai/codefuse-devops-eval&type=Date )] ( https://star-history.com/#codefuse-ai/codefuse-devops-eval&Date )
348
+
349
+ ### 🤝 Friendship Links
350
+ - [ Codefuse-ChatBot] ( https://github.com/codefuse-ai/codefuse-chatbot )
351
+ - Codefuse-ChatBot is an open-source AI smart assistant designed to support the software development lifecycle with conversational access to tools, knowledge, and platform integration.
352
+ - [ Awesome AIGC Tutorials] ( https://github.com/luban-agi/Awesome-AIGC-Tutorials )
353
+ - Awesome AIGC Tutorials houses a curated collection of tutorials and resources spanning across Large Language Models, AI Painting, and related fields.
0 commit comments