Skip to content

Commit 3d67f3c

Browse files
committed
monthly update
1 parent 7047f33 commit 3d67f3c

File tree

6 files changed

+88
-22
lines changed

6 files changed

+88
-22
lines changed

README-zh_CN.md

Lines changed: 18 additions & 16 deletions
Original file line numberDiff line numberDiff line change
@@ -120,7 +120,8 @@ jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
120120
## 四、使用效果
121121
### 1.工具测试对比
122122
#### 1.1 使用CaCl2标准词库和Jieba标准库测试分词结果对比
123-
分词文本内容
123+
124+
##### 测试分词文本内容
124125
```python
125126
text = """
126127
A股今日迎来4月开门红,三大指数集体收涨,其中沪指上涨0.71%,收报3466.33点;深证成指上涨1.46%,收报13979.69点;
@@ -132,54 +133,53 @@ A股今日迎来4月开门红,三大指数集体收涨,其中沪指上涨0.7
132133
133134
"""
134135
```
135-
* **Jieba标准库分词(代码示例)**
136+
##### Jieba标准库分词(代码示例)
136137
```python
137138
import jieba
138139
seg_list = jieba.cut(text, cut_all=False)
139-
print("jieba Mode: " + "/ ".join(seg_list))
140+
print("jieba: " + "/ ".join(seg_list))
141+
```
142+
##### Jieba输出结果:
140143
```
141-
Output:
142-
```python
143-
jieba Mode:
144144
/ A股/ 今日/ 迎来/ 4/ 月/ 开门红/ ,/ 三大/ 指数/ 集体/ 收涨/ ,/ 其中/ 沪/ 指/ 上涨/ 0.71%/ ,/ 收报/ 3466.33/ 点/ ;/ 深证/ 成指/ 上涨/ 1.46%/ ,/ 收报/ 13979.69/ 点/ ;/
145145
/ 创业板/ 指/ 上涨/ 2.06%/ ,/ 收报/ 2815.41/ 点/ 。/ 市场/ 成交量/ 持续/ 低迷/ ,/ 两市/ 合计/ 成交/ 6577/ 亿元/ ,/ 行业/ 板块/ 涨跌互现/ ,/ 钢铁/ 板块/ 强势/ 领涨/ 。/
146146
/ 东吴/ 证券/ 指出/ ,/ 目前/ 3/ 月/ 行情/ 已经/ 收官/ ,/ 进入/ 4/ 月份/ 后/ ,/ 一/ 季报/ 的/ 炒作/ 情绪/ 将/ 进一步/ 升温/ ,/ 因此/ 未来/ 市场/ 风格/ 将/ 以/ 估值/ 修复/ 和/ 业绩/ 成长/ 轮动/ 呈现/ ,/
147147
/ 投资者/ 可/ 重点/ 关注/ 环比/ 业绩/ 增长/ 的/ 品种/ 以及/ 顺/ 周期/ 板块/ 。/
148148
/ 中原/ 证券/ 认为/ ,/ 核心/ 资产/ 持续/ 上涨/ 的/ 动力/ 不足/ ,/ 场外/ 资金/ 入市/ 做/ 多/ 的/ 信心/ 不/ 强/ ,/ 沪/ 指/ 继续/ 围绕/ 半年线/ 震荡/ 整固/ 的/ 格局/ 依然/ 未改/ 。/
149149
/ 建议/ 投资者/ 继续/ 关注/ 政策/ 面/ 以及/ 资金面/ 的/ 变化/ 情况/ 。/
150150
```
151-
* **CaCl2标准词库分词(代码示例)**
151+
##### CaCl2标准词库分词(代码示例)
152152
```python
153153
import jieba
154154
dict_name = '490000.txt'
155155
jieba.load_userdict(dict_name)
156156
seg_list = jieba.cut(text, cut_all=False)
157-
print("cacl2 Mode: " + "/ ".join(seg_list))
157+
print("cacl2: " + "/ ".join(seg_list))
158+
```
159+
##### CaCl2输出结果:
158160
```
159-
Output:
160-
```python
161-
cacl2 Mode:
162161
/ A股/ 今日/ 迎来/ 4/ 月/ 开门红/ ,/ 三大指数/ 集体/ 收涨/ ,/ 其中/ 沪指/ 上涨/ 0.71%/ ,/ 收报/ 3466.33/ 点/ ;/ 深证成指/ 上涨/ 1.46%/ ,/ 收报/ 13979.69/ 点/ ;/
163162
/ 创业板指/ 上涨/ 2.06%/ ,/ 收报/ 2815.41/ 点/ 。/ 市场/ 成交量/ 持续/ 低迷/ ,/ 两市/ 合计/ 成交/ 6577/ 亿元/ ,/ 行业板块/ 涨跌互现/ ,/ 钢铁板块/ 强势/ 领涨/ 。/
164163
/ 东吴证券/ 指出/ ,/ 目前/ 3/ 月/ 行情/ 已经/ 收官/ ,/ 进入/ 4/ 月份/ 后/ ,/ 一/ 季报/ 的/ 炒作/ 情绪/ 将/ 进一步/ 升温/ ,/ 因此/ 未来/ 市场/ 风格/ 将/ 以/ 估值/ 修复/ 和/ 业绩/ 成长/ 轮动/ 呈现/ ,/
165164
/ 投资者/ 可/ 重点/ 关注/ 环比/ 业绩/ 增长/ 的/ 品种/ 以及/ 顺/ 周期/ 板块/ 。/
166165
/ 中原证券/ 认为/ ,/ 核心资产/ 持续/ 上涨/ 的/ 动力/ 不足/ ,/ 场外资金/ 入市/ 做多/ 的/ 信心/ 不/ 强/ ,/ 沪指/ 继续/ 围绕/ 半年线/ 震荡/ 整固/ 的/ 格局/ 依然/ 未改/ 。/
167166
/ 建议/ 投资者/ 继续/ 关注/ 政策面/ 以及/ 资金面/ 的/ 变化/ 情况/ 。/
168167
```
169-
* **对比Jieba标准库测试分词结果对比图**
168+
##### 对比Jieba标准库测试分词结果对比图
170169

171170
![对比Jieba标准库测试分词结果对比图](https://github.com/limccn/cacl2/blob/master/docs/images/jieba.png)
172171
#### 1.2 使用CaCl2和金融行业词库对比【招金词酷】进行分词
173-
* **【招金词酷】使用1.1的分词文本内容分词结果**
174-
```python
172+
173+
##### 【招金词酷】(版本1.1)的分词文本内容分词结果
174+
```
175175
A股 今日 迎来 4 月 开门红 三大 指数 集体 收涨 其中 沪指 上涨 0.71 % 收报 3466.33 点 深证 成指 上涨 1.46 % 收报 13979.69 点
176176
创业板 指 上涨 2.06 % 收报 2815.41 点 市场 成交量 持续 低迷 两 市 合计 成交 6577 亿元 行业板块 涨跌互现 钢铁板块 强势 领涨
177177
东吴证券 指出 目前 3 月 行情 已经 收官 进入 4 月份 后 一 季报 的 炒作 情绪 将 进一步 升温 因此 未来 市场 风格 将 以 估值 修复 和 业绩 成长 轮动 呈现
178178
投资者 可 重点关注 环比 业绩增长 的 品种 以及 顺 周期 板块
179179
中原证券 认为 核心 资产 持续 上涨的 动力 不足 场外 资金 入市 做 多 的 信心 不 强 沪指 继续 围绕 半年线 震荡 整固 的 格局 依然 未改
180180
建议投资者 继续关注 政策面 以及 资金面 的 变化 情况
181181
```
182-
* **对比【招金词酷】测试分词结果对比图**
182+
##### 对比【招金词酷】(版本1.1)测试分词结果对比图
183183

184184
![CaCl2和金融行业词库对比【招金词酷】进行分词](https://github.com/limccn/cacl2/blob/master/docs/images/zhaojinciku.png)
185185
#### 1.3 使用CaCl2和金融行业词库对比【招金词酷】进行分词提出摘要(@CaoWJ
@@ -208,7 +208,9 @@ A股 今日 迎来 4 月 开门红 三大 指数 集体 收涨 其中
208208
### 2.自动发布版本
209209
| 最新版本 | 发布周期 | 发布时间 | 变更日志 |
210210
| :----: | :----: | :----: | :---- |
211-
| v0.2.21.04 | monthly | 2021-02-01 | 金融行业(银行和非银金融)行业词库发布 |
211+
| v0.2.21.03 | monthly | 2021-04-06 | 公开金融行业测试数据结果 |
212+
| v0.2.21.02 | monthly | 2021-03-01 | 增加28个行业候选词条约100万 |
213+
| v0.2.21.01 | monthly | 2021-02-01 | 金融行业(银行和非银金融)行业词库发布 |
212214
| v0.2.20.12 | monthly | 2021-01-01 | 版本0.2的初版,开源第一版,提供28个一级行业的各1万个词条预览 |
213215

214216
**历史自动发布版本,请参考链接: [版本历史](https://github.com/limccn/cacl2#2monthlyqurterly-releases)

README.md

Lines changed: 66 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -126,9 +126,70 @@ If you need further information about all entries, Please refer to [Statistics](
126126
## Comparison and Test
127127
### 1.Comparsion
128128
#### 1.1 Compare CaCl2 Dictionary and [jieba](https://github.com/fxsjy/jieba/)@CaoWJ)Dictionary
129-
![Compare Lexicon]()
129+
130+
##### Text for test
131+
```python
132+
text = """
133+
A股今日迎来4月开门红,三大指数集体收涨,其中沪指上涨0.71%,收报3466.33点;深证成指上涨1.46%,收报13979.69点;
134+
创业板指上涨2.06%,收报2815.41点。市场成交量持续低迷,两市合计成交6577亿元,行业板块涨跌互现,钢铁板块强势领涨。
135+
东吴证券指出,目前3月行情已经收官,进入4月份后,一季报的炒作情绪将进一步升温,因此未来市场风格将以估值修复和业绩成长轮动呈现,
136+
投资者可重点关注环比业绩增长的品种以及顺周期板块。
137+
中原证券认为,核心资产持续上涨的动力不足,场外资金入市做多的信心不强,沪指继续围绕半年线震荡整固的格局依然未改。
138+
建议投资者继续关注政策面以及资金面的变化情况。
139+
140+
"""
141+
```
142+
##### Implement jieba with standard dictionary (demo)
143+
```python
144+
import jieba
145+
seg_list = jieba.cut(text, cut_all=False)
146+
print("jieba: " + "/ ".join(seg_list))
147+
```
148+
##### Jieba Output:
149+
```
150+
/ A股/ 今日/ 迎来/ 4/ 月/ 开门红/ ,/ 三大/ 指数/ 集体/ 收涨/ ,/ 其中/ 沪/ 指/ 上涨/ 0.71%/ ,/ 收报/ 3466.33/ 点/ ;/ 深证/ 成指/ 上涨/ 1.46%/ ,/ 收报/ 13979.69/ 点/ ;/
151+
/ 创业板/ 指/ 上涨/ 2.06%/ ,/ 收报/ 2815.41/ 点/ 。/ 市场/ 成交量/ 持续/ 低迷/ ,/ 两市/ 合计/ 成交/ 6577/ 亿元/ ,/ 行业/ 板块/ 涨跌互现/ ,/ 钢铁/ 板块/ 强势/ 领涨/ 。/
152+
/ 东吴/ 证券/ 指出/ ,/ 目前/ 3/ 月/ 行情/ 已经/ 收官/ ,/ 进入/ 4/ 月份/ 后/ ,/ 一/ 季报/ 的/ 炒作/ 情绪/ 将/ 进一步/ 升温/ ,/ 因此/ 未来/ 市场/ 风格/ 将/ 以/ 估值/ 修复/ 和/ 业绩/ 成长/ 轮动/ 呈现/ ,/
153+
/ 投资者/ 可/ 重点/ 关注/ 环比/ 业绩/ 增长/ 的/ 品种/ 以及/ 顺/ 周期/ 板块/ 。/
154+
/ 中原/ 证券/ 认为/ ,/ 核心/ 资产/ 持续/ 上涨/ 的/ 动力/ 不足/ ,/ 场外/ 资金/ 入市/ 做/ 多/ 的/ 信心/ 不/ 强/ ,/ 沪/ 指/ 继续/ 围绕/ 半年线/ 震荡/ 整固/ 的/ 格局/ 依然/ 未改/ 。/
155+
/ 建议/ 投资者/ 继续/ 关注/ 政策/ 面/ 以及/ 资金面/ 的/ 变化/ 情况/ 。/
156+
```
157+
##### Implement jieba with CaCl2 dictionary
158+
```python
159+
import jieba
160+
dict_name = '490000.txt'
161+
jieba.load_userdict(dict_name)
162+
seg_list = jieba.cut(text, cut_all=False)
163+
print("cacl2: " + "/ ".join(seg_list))
164+
```
165+
##### CaCl2 Output:
166+
```
167+
/ A股/ 今日/ 迎来/ 4/ 月/ 开门红/ ,/ 三大指数/ 集体/ 收涨/ ,/ 其中/ 沪指/ 上涨/ 0.71%/ ,/ 收报/ 3466.33/ 点/ ;/ 深证成指/ 上涨/ 1.46%/ ,/ 收报/ 13979.69/ 点/ ;/
168+
/ 创业板指/ 上涨/ 2.06%/ ,/ 收报/ 2815.41/ 点/ 。/ 市场/ 成交量/ 持续/ 低迷/ ,/ 两市/ 合计/ 成交/ 6577/ 亿元/ ,/ 行业板块/ 涨跌互现/ ,/ 钢铁板块/ 强势/ 领涨/ 。/
169+
/ 东吴证券/ 指出/ ,/ 目前/ 3/ 月/ 行情/ 已经/ 收官/ ,/ 进入/ 4/ 月份/ 后/ ,/ 一/ 季报/ 的/ 炒作/ 情绪/ 将/ 进一步/ 升温/ ,/ 因此/ 未来/ 市场/ 风格/ 将/ 以/ 估值/ 修复/ 和/ 业绩/ 成长/ 轮动/ 呈现/ ,/
170+
/ 投资者/ 可/ 重点/ 关注/ 环比/ 业绩/ 增长/ 的/ 品种/ 以及/ 顺/ 周期/ 板块/ 。/
171+
/ 中原证券/ 认为/ ,/ 核心资产/ 持续/ 上涨/ 的/ 动力/ 不足/ ,/ 场外资金/ 入市/ 做多/ 的/ 信心/ 不/ 强/ ,/ 沪指/ 继续/ 围绕/ 半年线/ 震荡/ 整固/ 的/ 格局/ 依然/ 未改/ 。/
172+
/ 建议/ 投资者/ 继续/ 关注/ 政策面/ 以及/ 资金面/ 的/ 变化/ 情况/ 。/
173+
```
174+
* **Comparsion**
175+
176+
![Compare CaCl2 and Jieba dictionary](https://github.com/limccn/cacl2/blob/master/docs/images/jieba.png)
177+
130178
#### 1.2 Word segmentation compare with [招金词酷](https://mp.weixin.qq.com/s/CuSZQ-BVZTzVS1ljYLcaKw?)@CaoWJ
131-
![Word segmentation]()
179+
180+
##### 招金词酷(version 1.1) Output
181+
```
182+
A股 今日 迎来 4 月 开门红 三大 指数 集体 收涨 其中 沪指 上涨 0.71 % 收报 3466.33 点 深证 成指 上涨 1.46 % 收报 13979.69 点
183+
创业板 指 上涨 2.06 % 收报 2815.41 点 市场 成交量 持续 低迷 两 市 合计 成交 6577 亿元 行业板块 涨跌互现 钢铁板块 强势 领涨
184+
东吴证券 指出 目前 3 月 行情 已经 收官 进入 4 月份 后 一 季报 的 炒作 情绪 将 进一步 升温 因此 未来 市场 风格 将 以 估值 修复 和 业绩 成长 轮动 呈现
185+
投资者 可 重点关注 环比 业绩增长 的 品种 以及 顺 周期 板块
186+
中原证券 认为 核心 资产 持续 上涨的 动力 不足 场外 资金 入市 做 多 的 信心 不 强 沪指 继续 围绕 半年线 震荡 整固 的 格局 依然 未改
187+
建议投资者 继续关注 政策面 以及 资金面 的 变化 情况
188+
```
189+
190+
* **Comparsion**
191+
192+
![Compare CaCl2 and 招金词酷](https://github.com/limccn/cacl2/blob/master/docs/images/zhaojinciku.png)
132193
#### 1.3 Document summarization compare with [招金词酷](https://mp.weixin.qq.com/s/CuSZQ-BVZTzVS1ljYLcaKw?)@CaoWJ
133194
![Document summarization]()
134195

@@ -158,7 +219,9 @@ Word segmentation test use Standard Chinese test dataset
158219
### 2.Monthly/Quarterly releases
159220
| Version | Circle | Date | Changelogs |
160221
| :----: | :----: | :----: | :---- |
161-
| v0.2.21.04 | monthly | 2021-02-01 | Release: banking and financials dictionary |
222+
| v0.2.21.03 | monthly | 2021-04-06 | Comparsion test and code added |
223+
| v0.2.21.02 | monthly | 2021-03-01 | Candidate entries added |
224+
| v0.2.21.01 | monthly | 2021-02-01 | Release: banking and financials dictionary |
162225
| v0.2.20.12 | monthly | 2021-01-01 | v0.2 Initial version |
163226

164227
**Detail monthly/quarterly releases history, please refer to [Auto-Release history](https://github.com/limccn/cacl2#2monthlyqurterly-releases)

STATUES-zh_CN.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -6,8 +6,8 @@
66

77
| 时间 | 总词条数 | 候选词条 | 已公开词条 | 预览版词条 |
88
| :----: | :----: | :----: | :----: | :----: |
9-
| 2021-04-01 | 约21,000,000 | 约3,000,000 | 2,624,625 | 280,000 |
10-
9+
| 2021-03-01 | 约21,000,000 | 约3,000,000 | 2,624,625 | 280,000 |
10+
| 2021-02-01 | 约21,000,000 | 约3,000,000 | 2,553,806 | 280,000 |
1111
#### 行业字典数
1212
| 时间 | 行业 | 词典数 | 已公开 | 预览版 | 未公开 |
1313
| :----: | :----: | :----: | :----: | :----: | :----: |

STATUES.md

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -4,7 +4,8 @@
44
### Entries
55
| Date | Total | Candidate | Released | Preview |
66
| :----: | :----: | :----: | :----: | :----: |
7-
| 2021-02-01 | 21,000,000 | 3,000,000 | 2,624,625 | 280,000 |
7+
| 2021-03-01 | 21,000,000 | 3,000,000 | 2,624,625 | 280,000 |
8+
| 2021-02-01 | 21,000,000 | 3,000,000 | 2,553,806 | 280,000 |
89

910
### Dictionaries
1011
| Date | Class | Industries | Released | Preview | Closing |

docs/images/jieba.png

33 KB
Loading

docs/images/zhaojinciku.png

25 KB
Loading

0 commit comments

Comments
 (0)