Multi-Stream LLM:为什么单线程聊天格式正在拖累 AI Agent?
我越来越觉得,很多 AI Agent 的问题不在“模型还不够聪明”,而在我们把它们塞进了一个很别扭的接口里:一条聊天消息进来,一条聊天消息出去,中间所有思考、工具调用、观察结果、用户反馈,都被挤在同一条时间线上。 这件事平时不明显。你让模型改一段代码、总结一篇文章,它慢一点、啰嗦一点,问题不大。但一旦进入真正的 Agent 场景,比如浏览器操作、长时间代码修改、后台任务、多人协作,它就开始露馅:模型正在“思考”时没法同时接收新信息,正在“输出”时没法真正读环境变化,正在等工具结果时也没法继续做别的规划。 说白了就是:我们想要一个能并行工作的智能系统,却还在用单线程聊天窗口来驱动它。 最近 HN 上有一篇论文讨论的正是这个问题:Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs。它的分数不算特别夸张,但我觉得比很多“又一个 Agent 框架”更值得写。因为它不是在 prompt 外面再包一层流程图,而是在问一个更底层的问题:LLM 的交互格式,是否已经成为 Agent 能力的瓶颈? HN 原帖标题也很直接:Multi-Stream LLMs: new paper on parallelizing/separating prompts, thinking, I/O。这不是一个已经成熟可用的工程框架,更像是一份架构提案。但它戳中了生产级 Agent 的一个痛点。 当前 Agent 最大的隐性假设:所有事情都必须排队 今天大多数 Agent 系统,本质上还是 ChatGPT 时代的消息协议: system message 定规则; user message 给任务; assistant message 生成回答或工具调用; tool message 把结果塞回上下文; assistant 再继续。 OpenAI 的 Agents SDK 已经把 handoff、guardrails、tracing、tool calling 封装得很清楚;Anthropic 的 Computer Use 也让 Claude 可以观察屏幕、点击、输入、等待环境变化;MCP 则通过 Model Context Protocol 把外部工具和数据源标准化成可连接的上下文。 ...