@@ -15,7 +15,7 @@ CaCl2是开放项目CaOCl(CA开放中文词法分析工具包)重要组成
15
15
16
16
| 时间 | 总词条数 | 候选词条 | 已公开词条 | 预览版词条 |
17
17
| :----: | :----: | :----: | :----: | :----: |
18
- | 2021-02 -01 | 约21,000,000 | 约3,000,000 | 2,553,806 | 280,000 |
18
+ | 2021-04 -01 | 约21,000,000 | 约3,000,000 | 2,624,625 | 280,000 |
19
19
20
20
#### 2.行业字典数
21
21
| 时间 | 行业 | 词典数 | 已公开 | 预览版 | 未公开 |
@@ -65,11 +65,11 @@ jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
65
65
### 1.已开源
66
66
| 行业代码 | 词库名称 | 词条数量 | 公开时间 | 当前版本 | 格式 | 下载地址 |
67
67
| :----: | :---- | :----: | :----: | :----: | :----: | :----: |
68
- | 480000 | 银行-通用 | 40612 | 2021-02 | v0.2 | txt | [ 480000.zip] ( https://github.com/limccn/cacl2/blob/master/archive/v0.2/480000.zip ) |
69
- | 480100 | 银行-银行 | 224433 | 2021-02 | v0.2 | txt | [ 480100.zip] ( https://github.com/limccn/cacl2/blob/master/archive/v0.2/480100.zip ) |
70
- | 490000 | 非银金融-通用 | 341235 | 2021-02 | v0.2 | txt | [ 490000.zip] ( https://github.com/limccn/cacl2/blob/master/archive/v0.2/490000.zip ) |
71
- | 490100 | 非银金融-证券 | 311121 | 2021-02 | v0.2 | txt | [ 490100.zip] ( https://github.com/limccn/cacl2/blob/master/archive/v0.2/490100.zip ) |
72
- | 490200 | 非银金融-保险 | 31020 | 2021-02 | v0.2 | txt | [ 480200.zip] ( https://github.com/limccn/cacl2/blob/master/archive/v0.2/480200.zip ) |
68
+ | 480000 | 银行-通用 | 40,612 | 2021-02 | v0.2 | txt | [ 480000.zip] ( https://github.com/limccn/cacl2/blob/master/archive/v0.2/480000.zip ) |
69
+ | 480100 | 银行-银行 | 224,433 | 2021-02 | v0.2 | txt | [ 480100.zip] ( https://github.com/limccn/cacl2/blob/master/archive/v0.2/480100.zip ) |
70
+ | 490000 | 非银金融-通用 | 353,149 | 2021-02 | v0.2 | txt | [ 490000.zip] ( https://github.com/limccn/cacl2/blob/master/archive/v0.2/490000.zip ) |
71
+ | 490100 | 非银金融-证券 | 324,450 | 2021-02 | v0.2 | txt | [ 490100.zip] ( https://github.com/limccn/cacl2/blob/master/archive/v0.2/490100.zip ) |
72
+ | 490200 | 非银金融-保险 | 31,020 | 2021-02 | v0.2 | txt | [ 480200.zip] ( https://github.com/limccn/cacl2/blob/master/archive/v0.2/480200.zip ) |
73
73
74
74
### 2.计划开源
75
75
| 行业代码 | 词库名称 | 词条数量 | 计划公开时间 | 当前版本 | 格式 | 下载地址 |
@@ -119,10 +119,69 @@ jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
119
119
120
120
## 四、使用效果
121
121
### 1.工具测试对比
122
- #### 1.1 使用CaCl2标准词库和Jieba标准库测试分词结果对比(@CaoWJ )
123
- ![ 对比Jieba标准库测试分词结果对比图] ( )
124
- #### 1.2 使用CaCl2和金融行业词库对比【招金词酷】进行分词(@CaoWJ )
125
- ![ CaCl2和金融行业词库对比【招金词酷】进行分词] ( )
122
+ #### 1.1 使用CaCl2标准词库和Jieba标准库测试分词结果对比
123
+ 分词文本内容
124
+ ``` python
125
+ text = """
126
+ A股今日迎来4月开门红,三大指数集体收涨,其中沪指上涨0.71%,收报3466.33点;深证成指上涨1.46%,收报13979.69点;
127
+ 创业板指上涨2.06%,收报2815.41点。市场成交量持续低迷,两市合计成交6577亿元,行业板块涨跌互现,钢铁板块强势领涨。
128
+ 东吴证券指出,目前3月行情已经收官,进入4月份后,一季报的炒作情绪将进一步升温,因此未来市场风格将以估值修复和业绩成长轮动呈现,
129
+ 投资者可重点关注环比业绩增长的品种以及顺周期板块。
130
+ 中原证券认为,核心资产持续上涨的动力不足,场外资金入市做多的信心不强,沪指继续围绕半年线震荡整固的格局依然未改。
131
+ 建议投资者继续关注政策面以及资金面的变化情况。
132
+
133
+ """
134
+ ```
135
+ * ** Jieba标准库分词(代码示例)**
136
+ ``` python
137
+ import jieba
138
+ seg_list = jieba.cut(text, cut_all = False )
139
+ print (" jieba Mode: " + " / " .join(seg_list))
140
+ ```
141
+ Output:
142
+ ``` python
143
+ jieba Mode:
144
+ / A股/ 今日/ 迎来/ 4 / 月/ 开门红/ ,/ 三大/ 指数/ 集体/ 收涨/ ,/ 其中/ 沪/ 指/ 上涨/ 0.71 %/ ,/ 收报/ 3466.33 / 点/ ;/ 深证/ 成指/ 上涨/ 1.46 %/ ,/ 收报/ 13979.69 / 点/ ;/
145
+ / 创业板/ 指/ 上涨/ 2.06 %/ ,/ 收报/ 2815.41 / 点/ 。/ 市场/ 成交量/ 持续/ 低迷/ ,/ 两市/ 合计/ 成交/ 6577 / 亿元/ ,/ 行业/ 板块/ 涨跌互现/ ,/ 钢铁/ 板块/ 强势/ 领涨/ 。/
146
+ / 东吴/ 证券/ 指出/ ,/ 目前/ 3 / 月/ 行情/ 已经/ 收官/ ,/ 进入/ 4 / 月份/ 后/ ,/ 一/ 季报/ 的/ 炒作/ 情绪/ 将/ 进一步/ 升温/ ,/ 因此/ 未来/ 市场/ 风格/ 将/ 以/ 估值/ 修复/ 和/ 业绩/ 成长/ 轮动/ 呈现/ ,/
147
+ / 投资者/ 可/ 重点/ 关注/ 环比/ 业绩/ 增长/ 的/ 品种/ 以及/ 顺/ 周期/ 板块/ 。/
148
+ / 中原/ 证券/ 认为/ ,/ 核心/ 资产/ 持续/ 上涨/ 的/ 动力/ 不足/ ,/ 场外/ 资金/ 入市/ 做/ 多/ 的/ 信心/ 不/ 强/ ,/ 沪/ 指/ 继续/ 围绕/ 半年线/ 震荡/ 整固/ 的/ 格局/ 依然/ 未改/ 。/
149
+ / 建议/ 投资者/ 继续/ 关注/ 政策/ 面/ 以及/ 资金面/ 的/ 变化/ 情况/ 。/
150
+ ```
151
+ * ** CaCl2标准词库分词(代码示例)**
152
+ ``` python
153
+ import jieba
154
+ dict_name = ' 490000.txt'
155
+ jieba.load_userdict(dict_name)
156
+ seg_list = jieba.cut(text, cut_all = False )
157
+ print (" cacl2 Mode: " + " / " .join(seg_list))
158
+ ```
159
+ Output:
160
+ ``` python
161
+ cacl2 Mode:
162
+ / A股/ 今日/ 迎来/ 4 / 月/ 开门红/ ,/ 三大指数/ 集体/ 收涨/ ,/ 其中/ 沪指/ 上涨/ 0.71 %/ ,/ 收报/ 3466.33 / 点/ ;/ 深证成指/ 上涨/ 1.46 %/ ,/ 收报/ 13979.69 / 点/ ;/
163
+ / 创业板指/ 上涨/ 2.06 %/ ,/ 收报/ 2815.41 / 点/ 。/ 市场/ 成交量/ 持续/ 低迷/ ,/ 两市/ 合计/ 成交/ 6577 / 亿元/ ,/ 行业板块/ 涨跌互现/ ,/ 钢铁板块/ 强势/ 领涨/ 。/
164
+ / 东吴证券/ 指出/ ,/ 目前/ 3 / 月/ 行情/ 已经/ 收官/ ,/ 进入/ 4 / 月份/ 后/ ,/ 一/ 季报/ 的/ 炒作/ 情绪/ 将/ 进一步/ 升温/ ,/ 因此/ 未来/ 市场/ 风格/ 将/ 以/ 估值/ 修复/ 和/ 业绩/ 成长/ 轮动/ 呈现/ ,/
165
+ / 投资者/ 可/ 重点/ 关注/ 环比/ 业绩/ 增长/ 的/ 品种/ 以及/ 顺/ 周期/ 板块/ 。/
166
+ / 中原证券/ 认为/ ,/ 核心资产/ 持续/ 上涨/ 的/ 动力/ 不足/ ,/ 场外资金/ 入市/ 做多/ 的/ 信心/ 不/ 强/ ,/ 沪指/ 继续/ 围绕/ 半年线/ 震荡/ 整固/ 的/ 格局/ 依然/ 未改/ 。/
167
+ / 建议/ 投资者/ 继续/ 关注/ 政策面/ 以及/ 资金面/ 的/ 变化/ 情况/ 。/
168
+ ```
169
+ * ** 对比Jieba标准库测试分词结果对比图**
170
+
171
+ ![ 对比Jieba标准库测试分词结果对比图] ( https://github.com/limccn/cacl2/blob/master/docs/images/jieba.png )
172
+ #### 1.2 使用CaCl2和金融行业词库对比【招金词酷】进行分词
173
+ * ** 【招金词酷】使用1.1的分词文本内容分词结果**
174
+ ``` python
175
+ A股 今日 迎来 4 月 开门红 三大 指数 集体 收涨 其中 沪指 上涨 0.71 % 收报 3466.33 点 深证 成指 上涨 1.46 % 收报 13979.69 点
176
+ 创业板 指 上涨 2.06 % 收报 2815.41 点 市场 成交量 持续 低迷 两 市 合计 成交 6577 亿元 行业板块 涨跌互现 钢铁板块 强势 领涨
177
+ 东吴证券 指出 目前 3 月 行情 已经 收官 进入 4 月份 后 一 季报 的 炒作 情绪 将 进一步 升温 因此 未来 市场 风格 将 以 估值 修复 和 业绩 成长 轮动 呈现
178
+ 投资者 可 重点关注 环比 业绩增长 的 品种 以及 顺 周期 板块
179
+ 中原证券 认为 核心 资产 持续 上涨的 动力 不足 场外 资金 入市 做 多 的 信心 不 强 沪指 继续 围绕 半年线 震荡 整固 的 格局 依然 未改
180
+ 建议投资者 继续关注 政策面 以及 资金面 的 变化 情况
181
+ ```
182
+ * ** 对比【招金词酷】测试分词结果对比图**
183
+
184
+ ![ CaCl2和金融行业词库对比【招金词酷】进行分词] ( https://github.com/limccn/cacl2/blob/master/docs/images/zhaojinciku.png )
126
185
#### 1.3 使用CaCl2和金融行业词库对比【招金词酷】进行分词提出摘要(@CaoWJ )
127
186
![ 使用CaCl2和金融行业词库对比【招金词酷】进行分词提出摘要] ( )
128
187
@@ -149,7 +208,7 @@ jieba.load_userdict(os.path.join(BASE_PATH_TO_DICT), dict_name))
149
208
### 2.自动发布版本
150
209
| 最新版本 | 发布周期 | 发布时间 | 变更日志 |
151
210
| :----: | :----: | :----: | :---- |
152
- | v0.2.21.01 | monthly | 2021-02-01 | 金融行业(银行和非银金融)行业词库发布 |
211
+ | v0.2.21.04 | monthly | 2021-02-01 | 金融行业(银行和非银金融)行业词库发布 |
153
212
| v0.2.20.12 | monthly | 2021-01-01 | 版本0.2的初版,开源第一版,提供28个一级行业的各1万个词条预览 |
154
213
155
214
** 历史自动发布版本,请参考链接: [ 版本历史] ( https://github.com/limccn/cacl2#2monthlyqurterly-releases )
0 commit comments