Skip to content

Commit 7047f33

Browse files
authored
Merge pull request #4 from CaoWJ/master
202103 release
2 parents d49ef35 + a30fdfc commit 7047f33

File tree

18 files changed

+1119035
-948497
lines changed

18 files changed

+1119035
-948497
lines changed

README-zh_CN.md

Lines changed: 70 additions & 11 deletions
Original file line numberDiff line numberDiff line change
@@ -15,7 +15,7 @@ CaCl2是开放项目CaOCl(CA开放中文词法分析工具包)重要组成
1515

1616
| 时间 | 总词条数 | 候选词条 | 已公开词条 | 预览版词条 |
1717
| :----: | :----: | :----: | :----: | :----: |
18-
| 2021-02-01 | 约21,000,000 | 约3,000,000 | 2,553,806 | 280,000 |
18+
| 2021-04-01 | 约21,000,000 | 约3,000,000 | 2,624,625 | 280,000 |
1919

2020
#### 2.行业字典数
2121
| 时间 | 行业 | 词典数 | 已公开 | 预览版 | 未公开 |
@@ -65,11 +65,11 @@ jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
6565
### 1.已开源
6666
| 行业代码 | 词库名称 | 词条数量 | 公开时间 | 当前版本 | 格式 | 下载地址 |
6767
| :----: | :---- | :----: | :----: | :----: | :----: | :----: |
68-
| 480000 | 银行-通用 | 40612 | 2021-02 | v0.2 | txt | [480000.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480000.zip) |
69-
| 480100 | 银行-银行 | 224433 | 2021-02 | v0.2 | txt | [480100.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480100.zip) |
70-
| 490000 | 非银金融-通用 | 341235 | 2021-02 | v0.2 | txt | [490000.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/490000.zip) |
71-
| 490100 | 非银金融-证券 | 311121 | 2021-02 | v0.2 | txt | [490100.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/490100.zip) |
72-
| 490200 | 非银金融-保险 | 31020 | 2021-02 | v0.2 | txt | [480200.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480200.zip) |
68+
| 480000 | 银行-通用 | 40,612 | 2021-02 | v0.2 | txt | [480000.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480000.zip) |
69+
| 480100 | 银行-银行 | 224,433 | 2021-02 | v0.2 | txt | [480100.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480100.zip) |
70+
| 490000 | 非银金融-通用 | 353,149 | 2021-02 | v0.2 | txt | [490000.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/490000.zip) |
71+
| 490100 | 非银金融-证券 | 324,450 | 2021-02 | v0.2 | txt | [490100.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/490100.zip) |
72+
| 490200 | 非银金融-保险 | 31,020 | 2021-02 | v0.2 | txt | [480200.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480200.zip) |
7373

7474
### 2.计划开源
7575
| 行业代码 | 词库名称 | 词条数量 | 计划公开时间 | 当前版本 | 格式 | 下载地址 |
@@ -119,10 +119,69 @@ jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
119119

120120
## 四、使用效果
121121
### 1.工具测试对比
122-
#### 1.1 使用CaCl2标准词库和Jieba标准库测试分词结果对比(@CaoWJ
123-
![对比Jieba标准库测试分词结果对比图]()
124-
#### 1.2 使用CaCl2和金融行业词库对比【招金词酷】进行分词(@CaoWJ
125-
![CaCl2和金融行业词库对比【招金词酷】进行分词]()
122+
#### 1.1 使用CaCl2标准词库和Jieba标准库测试分词结果对比
123+
分词文本内容
124+
```python
125+
text = """
126+
A股今日迎来4月开门红,三大指数集体收涨,其中沪指上涨0.71%,收报3466.33点;深证成指上涨1.46%,收报13979.69点;
127+
创业板指上涨2.06%,收报2815.41点。市场成交量持续低迷,两市合计成交6577亿元,行业板块涨跌互现,钢铁板块强势领涨。
128+
东吴证券指出,目前3月行情已经收官,进入4月份后,一季报的炒作情绪将进一步升温,因此未来市场风格将以估值修复和业绩成长轮动呈现,
129+
投资者可重点关注环比业绩增长的品种以及顺周期板块。
130+
中原证券认为,核心资产持续上涨的动力不足,场外资金入市做多的信心不强,沪指继续围绕半年线震荡整固的格局依然未改。
131+
建议投资者继续关注政策面以及资金面的变化情况。
132+
133+
"""
134+
```
135+
* **Jieba标准库分词(代码示例)**
136+
```python
137+
import jieba
138+
seg_list = jieba.cut(text, cut_all=False)
139+
print("jieba Mode: " + "/ ".join(seg_list))
140+
```
141+
Output:
142+
```python
143+
jieba Mode:
144+
/ A股/ 今日/ 迎来/ 4// 开门红// 三大/ 指数/ 集体/ 收涨// 其中/// 上涨/ 0.71%// 收报/ 3466.33/// 深证/ 成指/ 上涨/ 1.46%// 收报/ 13979.69///
145+
/ 创业板// 上涨/ 2.06%// 收报/ 2815.41/// 市场/ 成交量/ 持续/ 低迷// 两市/ 合计/ 成交/ 6577/ 亿元// 行业/ 板块/ 涨跌互现// 钢铁/ 板块/ 强势/ 领涨//
146+
/ 东吴/ 证券/ 指出// 目前/ 3// 行情/ 已经/ 收官// 进入/ 4/ 月份//// 季报// 炒作/ 情绪// 进一步/ 升温// 因此/ 未来/ 市场/ 风格/// 估值/ 修复// 业绩/ 成长/ 轮动/ 呈现//
147+
/ 投资者// 重点/ 关注/ 环比/ 业绩/ 增长// 品种/ 以及// 周期/ 板块//
148+
/ 中原/ 证券/ 认为// 核心/ 资产/ 持续/ 上涨// 动力/ 不足// 场外/ 资金/ 入市//// 信心////// 继续/ 围绕/ 半年线/ 震荡/ 整固// 格局/ 依然/ 未改//
149+
/ 建议/ 投资者/ 继续/ 关注/ 政策// 以及/ 资金面// 变化/ 情况//
150+
```
151+
* **CaCl2标准词库分词(代码示例)**
152+
```python
153+
import jieba
154+
dict_name = '490000.txt'
155+
jieba.load_userdict(dict_name)
156+
seg_list = jieba.cut(text, cut_all=False)
157+
print("cacl2 Mode: " + "/ ".join(seg_list))
158+
```
159+
Output:
160+
```python
161+
cacl2 Mode:
162+
/ A股/ 今日/ 迎来/ 4// 开门红// 三大指数/ 集体/ 收涨// 其中/ 沪指/ 上涨/ 0.71%// 收报/ 3466.33/// 深证成指/ 上涨/ 1.46%// 收报/ 13979.69///
163+
/ 创业板指/ 上涨/ 2.06%// 收报/ 2815.41/// 市场/ 成交量/ 持续/ 低迷// 两市/ 合计/ 成交/ 6577/ 亿元// 行业板块/ 涨跌互现// 钢铁板块/ 强势/ 领涨//
164+
/ 东吴证券/ 指出// 目前/ 3// 行情/ 已经/ 收官// 进入/ 4/ 月份//// 季报// 炒作/ 情绪// 进一步/ 升温// 因此/ 未来/ 市场/ 风格/// 估值/ 修复// 业绩/ 成长/ 轮动/ 呈现//
165+
/ 投资者// 重点/ 关注/ 环比/ 业绩/ 增长// 品种/ 以及// 周期/ 板块//
166+
/ 中原证券/ 认为// 核心资产/ 持续/ 上涨// 动力/ 不足// 场外资金/ 入市/ 做多// 信心//// 沪指/ 继续/ 围绕/ 半年线/ 震荡/ 整固// 格局/ 依然/ 未改//
167+
/ 建议/ 投资者/ 继续/ 关注/ 政策面/ 以及/ 资金面// 变化/ 情况//
168+
```
169+
* **对比Jieba标准库测试分词结果对比图**
170+
171+
![对比Jieba标准库测试分词结果对比图](https://github.com/limccn/cacl2/blob/master/docs/images/jieba.png)
172+
#### 1.2 使用CaCl2和金融行业词库对比【招金词酷】进行分词
173+
* **【招金词酷】使用1.1的分词文本内容分词结果**
174+
```python
175+
A股 今日 迎来 4 月 开门红 三大 指数 集体 收涨 其中 沪指 上涨 0.71 % 收报 3466.33 点 深证 成指 上涨 1.46 % 收报 13979.69
176+
创业板 指 上涨 2.06 % 收报 2815.41 点 市场 成交量 持续 低迷 两 市 合计 成交 6577 亿元 行业板块 涨跌互现 钢铁板块 强势 领涨
177+
东吴证券 指出 目前 3 月 行情 已经 收官 进入 4 月份 后 一 季报 的 炒作 情绪 将 进一步 升温 因此 未来 市场 风格 将 以 估值 修复 和 业绩 成长 轮动 呈现
178+
投资者 可 重点关注 环比 业绩增长 的 品种 以及 顺 周期 板块
179+
中原证券 认为 核心 资产 持续 上涨的 动力 不足 场外 资金 入市 做 多 的 信心 不 强 沪指 继续 围绕 半年线 震荡 整固 的 格局 依然 未改
180+
建议投资者 继续关注 政策面 以及 资金面 的 变化 情况
181+
```
182+
* **对比【招金词酷】测试分词结果对比图**
183+
184+
![CaCl2和金融行业词库对比【招金词酷】进行分词](https://github.com/limccn/cacl2/blob/master/docs/images/zhaojinciku.png)
126185
#### 1.3 使用CaCl2和金融行业词库对比【招金词酷】进行分词提出摘要(@CaoWJ
127186
![使用CaCl2和金融行业词库对比【招金词酷】进行分词提出摘要]()
128187

@@ -149,7 +208,7 @@ jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
149208
### 2.自动发布版本
150209
| 最新版本 | 发布周期 | 发布时间 | 变更日志 |
151210
| :----: | :----: | :----: | :---- |
152-
| v0.2.21.01 | monthly | 2021-02-01 | 金融行业(银行和非银金融)行业词库发布 |
211+
| v0.2.21.04 | monthly | 2021-02-01 | 金融行业(银行和非银金融)行业词库发布 |
153212
| v0.2.20.12 | monthly | 2021-01-01 | 版本0.2的初版,开源第一版,提供28个一级行业的各1万个词条预览 |
154213

155214
**历史自动发布版本,请参考链接: [版本历史](https://github.com/limccn/cacl2#2monthlyqurterly-releases)

README.md

Lines changed: 7 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -26,7 +26,7 @@ CaCl2 project aims to build a consistent, complete and accurate industrial lexic
2626
#### Entries
2727
| Date | All | Candidate | Released | Preview |
2828
| :----: | :----: | :----: | :----: | :----: |
29-
| 2021-02-01 | 21,000,000 | 3,000,000 | 2,553,806 | 280,000 |
29+
| 2021-02-01 | 21,000,000 | 3,000,000 | 2,624,625 | 280,000 |
3030

3131
#### Dictionaries
3232
| Date | Class | Industries | Released | Preview | Closing |
@@ -72,11 +72,11 @@ jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
7272
### Released
7373
| Code | Name | Entries | Date | Version | Format | Download |
7474
| :----: | :---- | :----: | :----: | :----: | :----: | :----: |
75-
| 480000 | Banking-Common | 40612 | 2021-02 | v0.2 | txt | [480000.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480000.zip) |
76-
| 480100 | Banking-Bank | 224433 | 2021-02 | v0.2 | txt | [480100.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480100.zip) |
77-
| 490000 | Financials-Common | 341235 | 2021-02 | v0.2 | txt | [490000.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/490000.zip) |
78-
| 490100 | Financials-Securities | 311121 | 2021-02 | v0.2 | txt | [490100.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/490100.zip) |
79-
| 490200 | Financials-Insurance | 31020 | 2021-02 | v0.2 | txt | [480200.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480200.zip) |
75+
| 480000 | Banking-Common | 40,612 | 2021-02 | v0.2 | txt | [480000.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480000.zip) |
76+
| 480100 | Banking-Bank | 224,433 | 2021-02 | v0.2 | txt | [480100.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480100.zip) |
77+
| 490000 | Financials-Common | 353,149 | 2021-02 | v0.2 | txt | [490000.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/490000.zip) |
78+
| 490100 | Financials-Securities | 324,450 | 2021-02 | v0.2 | txt | [490100.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/490100.zip) |
79+
| 490200 | Financials-Insurance | 31,020 | 2021-02 | v0.2 | txt | [480200.zip](https://github.com/limccn/cacl2/blob/master/archive/v0.2/480200.zip) |
8080

8181
### Scheduled Release
8282
| Code | Name | Entries | Schedule | Version | Format | Download |
@@ -158,7 +158,7 @@ Word segmentation test use Standard Chinese test dataset
158158
### 2.Monthly/Quarterly releases
159159
| Version | Circle | Date | Changelogs |
160160
| :----: | :----: | :----: | :---- |
161-
| v0.2.21.01 | monthly | 2021-02-01 | Release: banking and financials dictionary |
161+
| v0.2.21.04 | monthly | 2021-02-01 | Release: banking and financials dictionary |
162162
| v0.2.20.12 | monthly | 2021-01-01 | v0.2 Initial version |
163163

164164
**Detail monthly/quarterly releases history, please refer to [Auto-Release history](https://github.com/limccn/cacl2#2monthlyqurterly-releases)

0 commit comments

Comments
 (0)