PLSA 主题分析与关键词提取的利器

背景问题 文档相似度比较

假设我们现在有若干文档,我们想比较其中两个文档的相似度,或者说我们希望知道这两份文档说的是不是一样的或者类似的事情。一个naive的想法就是,直接进行词频统计,也就是说,先选取一个大小为\(M\)的常用词汇集\(W\),然后比较这样两个向量

继续阅读“PLSA 主题分析与关键词提取的利器”