PLSA 主题分析与关键词提取的利器

背景问题 文档相似度比较

假设我们现在有若干文档,我们想比较其中两个文档的相似度,或者说我们希望知道这两份文档说的是不是一样的或者类似的事情。一个naive的想法就是,直接进行词频统计,也就是说,先选取一个大小为\(M\)的常用词汇集\(W\),然后比较这样两个向量

继续阅读“PLSA 主题分析与关键词提取的利器”

Codeforces 1196F K-th Path

题目大意是说给定一个无向图,要求出所有的点对之间的最短路之中第k小的值。思路很简单,就是用Floyd算法跑一遍然后排序就行,但是点的数目给的比较多,用邻接矩阵存储会爆内存。注意到第k小的最短路权值至多为第k短的边权,因此选择前k条边连接的至多2k个点,仅仅考虑它们之间的路径来跑最短路,就OK了。

继续阅读“Codeforces 1196F K-th Path”