本项目将实现目前深度学习在文本分类上的一些经典模型。代码使用python实现,基于Google Tensorflow机器学习库以及sklearn机器学习库。
基于CNN的文本分类方法对应的paper为 Convolutional Neural Networks for Sentence Classification
基于CNN的文本分类实现可参考:Implementing a CNN for Text Classification in TensorFlow
CNN在NLP中的使用可参考深度学习与自然语言处理之四:卷积神经网络模型(CNN)
基于RNN的文本分类方法对应的paper为Recurrent Neural Network for Text Classification with Multi-Task Learning
基于HAM模型的文本分类方法对应的paper为Hierarchical Attention Networks for Document Classification
基于Fasttext的文本分类方法对应的paper为Bag of Tricks for Efficient Text Classification 代码中仅仅实现了最简单的基于单词的词向量求平均,并未使用b-gram的词向量,所以文本分类效果低于facebook开源的的facebook fasttext
基于RCNN的文本分类方法对饮给的paper为Recurrent Convolutional Neural Networks for Text Classification