Python 3.6.0
- 文本输入支持txt文本和数据库输入文本
- 分词采用结巴模块
- TF-IDF算法将文档向量化
- 文本距离采用余弦距离
- 聚类算法使用sklearn的AgglomerativeClustering聚类算法
"""
文本聚类的配置文件
"""
# ################ 输入设置 #########################
# 文本预处理 所需过滤字符或关键词
filter_item = "\ |[A-z]|\d|>|<|\.|。|》|《|=|,|,|?|\?|、|(|)|/|-|:|:|“|”"
# 文本的路径及文件名
file_path = "."
file_name = "content.txt"
# 指定数据库的配置
db_info = dict(
host="localhost",
user="root",
passwd="",
db="work",
charset="gbk"
)
# ################### 聚类设置 ######################
# 文本分类数目
n_cluster = 4
# ################# 导出路径 ###################
export_path = "."
# 所有数据的分类
export_name_all = "分类统计.xls"