本项目包含多种数据挖掘相关的示例代码,涵盖贝叶斯分类、LDA主题模型、分词等内容,适用于学习和实验。
bayes/:贝叶斯分类相关的 Python 和 PHP 示例,包括文本分类、微博数据处理等。lda/:LDA主题模型相关代码,包含 GibbsLDA++ 的源码及使用说明。ppl/:分词相关 PHP 示例,集成了 jieba-php 分词库。
bayes.py:实现了朴素贝叶斯文本分类算法。operation.py:对微博文本进行分类实验。weibo.py:微博文本样本。bayes_class.py:贝叶斯分类的进阶示例。
cd bayes
python bayes.py
python operation.py- GibbsLDA++:C/C++ 实现的 LDA 主题模型,支持大规模文本数据的主题分析。
- 详细使用方法见
lda/gibbs_lda/README。
cd lda/gibbs_lda/src
make
./lda -est -data ../models/casestudy/trndocs.dat -model casestudy- 集成 jieba-php,支持中文分词、关键词提取、词性标注等。
cd ppl/jieba-php
php src/cmd/demo.php- Python 2/3(部分脚本需 numpy)
- PHP 5.6+(jieba-php)
- 克隆项目:
git clone https://github.com/easycheaplife/data-mining.git
- 安装依赖(如 numpy、jieba-php)。
- 运行示例脚本:
cd bayes python bayes.py