Skip to content

这是一个文本聚类的小程序

Notifications You must be signed in to change notification settings

MarsCube/textCluster-1

 
 

Repository files navigation

简单文本聚类程序

程序编辑环境

Python 3.6.0

流程说明

  1. 文本输入支持txt文本和数据库输入文本
  2. 分词采用结巴模块
  3. TF-IDF算法将文档向量化
  4. 文本距离采用余弦距离
  5. 聚类算法使用sklearn的AgglomerativeClustering聚类算法

基本配置文件为:

"""
文本聚类的配置文件
"""

# ################ 输入设置 #########################
# 文本预处理 所需过滤字符或关键词
filter_item = "\ |[A-z]|\d|>|<|\.|。|》|《|=|,|,|?|\?|、|(|)|/|-|:|:|“|”"

# 文本的路径及文件名
file_path = "."
file_name = "content.txt"

# 指定数据库的配置
db_info = dict(
    host="localhost",
    user="root",
    passwd="",
    db="work",
    charset="gbk"
)

# ################### 聚类设置 ######################

# 文本分类数目
n_cluster = 4

# ################# 导出路径 ###################
export_path = "."

# 所有数据的分类
export_name_all = "分类统计.xls"

About

这是一个文本聚类的小程序

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%