背景问题 文档相似度比较
假设我们现在有若干文档,我们想比较其中两个文档的相似度,或者说我们希望知道这两份文档说的是不是一样的或者类似的事情。一个naive的想法就是,直接进行词频统计,也就是说,先选取一个大小为\(M\)的常用词汇集\(W\),然后比较这样两个向量
继续阅读“PLSA 主题分析与关键词提取的利器”遗落于未来
假设我们现在有若干文档,我们想比较其中两个文档的相似度,或者说我们希望知道这两份文档说的是不是一样的或者类似的事情。一个naive的想法就是,直接进行词频统计,也就是说,先选取一个大小为\(M\)的常用词汇集\(W\),然后比较这样两个向量
继续阅读“PLSA 主题分析与关键词提取的利器”如果你同时使用gdb和qemu进行开发,可能你会为了反复启动和关闭这两个程序而感到麻烦。这里准备了一个自动脚本,可以自动地启动这两个程序,并进行分屏。
继续阅读“利用脚本的自动化QEMU & GDB”在玩Hasekll的时候在GitHub上面搜索了一下有什么好的Haskell项目,发现了这个强大的工具。Pandoc是一个可以在不同文档格式之间进行转换的工具,支持的格式相当的多,能力非常强,该项目的官网地址在这里。
继续阅读“强大的文档互转工具-Pandoc初探”
题目大意是给定一个长度为奇数的数列,每次操作可以将数列中某个数加一,在k次操作之后问该序列能取到的最大中位数是多少。
继续阅读“CodeForces 1201C Maximum Median [二分答案]”折腾过我好几次的事情了,现在来记录一下过程。
继续阅读“将VMDK转换为VHD/VHDX以迁移到Hyper-V”给定n个人和他们之间的朋友关系(x与y是朋友或不是朋友),问有多少对(x,y),使得对于任意的和x,y不同的k,x与k和y与k的朋友关系相同(同时和k是朋友或者同时和k不是朋友)(既通过好友关系检查某人是不是某人的小号233)
继续阅读“[CodeForces-154C] Double Profiles 哈希”最近学treap,看了cp-algorithm之后就想拿个题练一下,没想到踩了个坑,记录一下
继续阅读“[HDU4585] 平衡二叉树 [奇葩错误自有记录]”突然想写个爬虫来爬一爬B站的数据做个分析,写个程序自娱自乐233
继续阅读“[Bilibili爬虫] 评论与弹幕词云分析”筛法最直接的应用就是用于构造素数表,下面先通过构造素数表的问题来讲解常见的两种筛法
继续阅读“线性筛及其应用”