你好,这里是林和

Flow Matching

论文地址:https://arxiv.org/pdf/2210.02747 Normalizing Flow 在正式介绍 Flow Matching 之前,先介绍一下 flow 方法。我没找到“最早”提出这个

Cosy Voice

项目地址:https://github.com/FunAudioLLM/CosyVoice 论文地址:https://fun-audio-ll

Whisper

项目地址:https://github.com/openai/whisper 论文地址:https://arxiv.org/pdf/2212.

Preble

论文地址:https://arxiv.org/pdf/2407.00023 发表于 ICLR 2024 设计 调度分为两个层次:Global and local。所有的请

Speculative Decoding

直接版本 原始论文: Fast Inference from Transformers via Speculative Decoding 核心思路: 小模型给出若干 token Token 线性排列 大模型验证 直观:一个生成任务的每一部分难易度是不同的,有些部分相对简单,

vAttention

概览 论文通过 CUDA 提供的虚存管理 API,解决了在用户态管理显存分页的问题。对比 FlashAttention 和 FlashInfer 中的 PagedAttention kernel,分别获得了 22%、29% 的性能提升。 论文