Skip to content

easycheaplife/data-mining

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

data-mining

本项目包含多种数据挖掘相关的示例代码,涵盖贝叶斯分类、LDA主题模型、分词等内容,适用于学习和实验。

目录结构

  • bayes/:贝叶斯分类相关的 Python 和 PHP 示例,包括文本分类、微博数据处理等。
  • lda/:LDA主题模型相关代码,包含 GibbsLDA++ 的源码及使用说明。
  • ppl/:分词相关 PHP 示例,集成了 jieba-php 分词库。

主要功能

贝叶斯分类(bayes/)

  • bayes.py:实现了朴素贝叶斯文本分类算法。
  • operation.py:对微博文本进行分类实验。
  • weibo.py:微博文本样本。
  • bayes_class.py:贝叶斯分类的进阶示例。

使用示例

cd bayes
python bayes.py
python operation.py

LDA主题模型(lda/gibbs_lda/)

  • GibbsLDA++:C/C++ 实现的 LDA 主题模型,支持大规模文本数据的主题分析。
  • 详细使用方法见 lda/gibbs_lda/README

编译与运行

cd lda/gibbs_lda/src
make
./lda -est -data ../models/casestudy/trndocs.dat -model casestudy

分词(ppl/)

  • 集成 jieba-php,支持中文分词、关键词提取、词性标注等。

PHP分词示例

cd ppl/jieba-php
php src/cmd/demo.php

运行环境

  • Python 2/3(部分脚本需 numpy)
  • PHP 5.6+(jieba-php)

快速开始

  1. 克隆项目:
    git clone https://github.com/easycheaplife/data-mining.git
  2. 安装依赖(如 numpy、jieba-php)。
  3. 运行示例脚本:
    cd bayes
    python bayes.py

参考

About

some data mining example

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •