Voice AI

VibeVoice 在 HN 上冲到三百多分时，我第一反应不是“又一个开源 TTS 火了”。真正值得看的是另一个问题：语音 AI 开始从 demo 音质竞争，转向能不能被塞进真实产品链路。这件事对做 AI 应用的人很现实。文字 Agent 已经卷到上下文工程、工具调用、评测和成本优化；但一旦加上语音，系统复杂度会立刻翻倍：ASR 要处理长音频、说话人、时间戳和热词；TTS 要处理首包延迟、流式输入、语气一致性和滥用风险。VibeVoice 这次之所以值得写，不是因为微软给了一个“声音很像真人”的玩具，而是因为它把 ASR、实时 TTS、长文本合成和 vLLM/Transformers 集成都放在一个开源项目里，让我们能更清楚地判断：开源 Voice AI 到底离生产系统还有多远。先说我的结论：VibeVoice 很适合做研究原型、内部工具、长音频转写和语音 Agent 的技术验证；但如果你准备直接把它当成商业级语音生成服务，我会非常谨慎。不是它不强，而是语音系统的生产风险和文本 LLM 完全不是一个量级。它真正解决的不是“会说话”，而是语音链路的三个断点从 VibeVoice GitHub README 看，项目现在不是单一模型，而是一组语音 AI 组件：VibeVoice-ASR-7B、VibeVoice-TTS-1.5B，以及 VibeVoice-Realtime-0.5B。README 里明确提到，ASR 可以处理 60 分钟长音频，输出包含 Who、When、What 的结构化转写；实时 TTS 则强调 streaming text input 和约 200ms 的首次可听延迟。这几个关键词放在一起，含义很明确：它瞄准的不是“输入一句话，生成一段 wav”这种 demo，而是更接近真实业务里的语音流水线。比如会议纪要系统，难点通常不是识别一句英文，而是 40 分钟会议里谁说了什么、什么时候说的、专有名词有没有错、跨语言夹杂会不会崩。再比如语音 Agent，用户希望模型一边生成答案一边开口说话，而不是等 LLM 完整吐出 800 字后再合成音频。技术上看，这就是 ASR 的长上下文与说话人结构化、TTS 的流式合成、以及中间 LLM 的 token streaming 能不能顺滑拼起来。 ...