-
Notifications
You must be signed in to change notification settings - Fork 593
使用文档——模型展现
Zeyu Chen edited this page Jun 28, 2017
·
2 revisions
主题内容查询demo展示三个模型的主题词结果。
sh run_show_topic_demo.sh # 查询LDA与SentenceLDA模型的主题词demo
-
--model_dir
选择不同领域的的主题模型。 -
--conf_file
模型配置文件,可选的配置有lda.conf和slda.conf。 -
--top_k
展示模型中某个主题下前K个最重要的词,默认为20。
执行程序后,通过标准流方式输入主题id,程序会返回该主题下最重要的K个词,LDA模型内容展现的结果如下所示:
请输入主题编号(0-1999): 105
-----------------------------
对话 0.189676
合作 0.0805558
中国 0.0276284
磋商 0.0269797
交流 0.021069
联合 0.0208559
国家 0.0183163
讨论 0.0154165
支持 0.0146714
包括 0.014198
将运行参数修改为 --model_dir="./model/news/" --conf_file="slda.conf" --top_k=10
可以展示SentenceLDA的模型结果:
请输入主题编号(0-1999): 105
------------------------------
浙江 0.0300595
浙江省 0.0290975
宁波 0.0195277
记者 0.0174735
宁波市 0.0132504
长春市 0.0123353
街道 0.0107271
吉林省 0.00954326
金华 0.00772971
公安局 0.00678163
Topical Word Embedding (TWE) 模型的展现方式与传统LDA等主题模型有些许差别。由于TWE模型包含了一套受主题信号引导的词向量和主题向量,因此展示时着重对比通过Embedding方式召回的主题词结果和用多项分布召回的主题词的差别。
sh run_topic_word_demo.sh # 运行主题词查询的demo
-
--model_dir
选择不同领域的的主题模型。 -
--emb_file
TWE模型的Embedding模型文件 -
--topic_words_file
传入LDA模型完整的主题词结果,用于与TWE模型进行结果对比。
执行程序后,通过标准流方式输入主题id,程序会返回每个主题下最重要的K个词, TWE模型内容展现的结果如下所示:
请输入主题编号(0-10000): 105
Embedding Result Multinomial Result
------------------------------------------------
对话 对话
磋商 合作
合作 中国
非方 磋商
探讨 交流
对话会议 联合
议题 国家
中方 讨论
对话会 支持
交流 包括
其中,第一列为基于Embedding召回的的主题词结果,第二列为基于多项分布的结果,均按照在主题中的重要程度从大到小的顺序排序。
TWE模型中包含了词向量和主题向量,两类向量映射在同一空间中,因此可以与word2vec一样,使用embedding的方法召回语义相近的词汇。
sh run_word_distance_demo.sh # 运行邻近词查询的demo
-
--model_dir
选择不同领域的的主题模型。 -
--emb_file
TWE模型的Embedding模型文件 -
--top_k
召回与输入词最接近的K个词。
执行程序后,通过标准流方式进行输入,每行为一个词,程序会输出每个词的最邻近的K个词。如下所示:
请输入词语: 篮球
Word Cosine distance
------------------------------
足球 0.903682
网球 0.842661
羽毛球 0.836915
足球比赛 0.809366
五人制足球 0.799211
美式足球 0.791207
中国足球 0.788995
乒乓球 0.788278
五人制 0.784913
足球新闻 0.783203
这一demo与word2vec经典的近邻词查询原理一样,只是TWE的word embedding引入了主题这一信息,在词的距离上考虑了主题这一属性,因此语义聚合度相比word2vec来说会更高。