技术文摘

流式意图检测+永久记忆:NUS和NTU发布Pask,把贾维斯AI拉进现实

让AI像助手一样主动帮助,才是我们心中AGI的样子。主动智能体的概念已被多次提出,但都很难做到真正在生活中落地。现有工作停留在概念层面,无法解决复杂世界中所要求的实时性、深度和记忆问题。南洋理工大学谢之非团队提出的Pask,首次做到了。

核心范式:需求探测-记忆-主动系统

Pask包含三个相互作用的模块:需求检测(Demand Detection)是第一步也是最核心的一步,它与人类同听同看,实时检测出当下的需求——比如「他现在需要知道这个词的意思」或「他可能在怀疑对方是否在说真话」。长期记忆负责系统中的个性化部分,与用户一起成长持续进化。主动系统是整个Agent的底层执行逻辑,保持循环运行驱动前两个组件协同工作。

IntentFlow:1.5秒完成意图检测

研究人员从语音和视频的端到端流式模型获得灵感,选择了「模型+Agents」实现路径——重新训练一个在「文本流」上实时运行的意图检测模型IntentFlow。当其他开闭源模型普遍需要3-10秒才能推理一次人类的潜在需要时,IntentFlow只需要1.5秒就可以结合用户的个人、工作和全局记忆完成一次完整的意图检测。

三层记忆体系

借鉴计算机存储的Cache-内存-外存架构,Pask设计了三层记忆体系:用户记忆(类似Cache)让AI随时知道用户是谁、有什么偏好;Workspace记忆(类似内存)负责当前事件内部的所有上下文信息;全局记忆(类似外存)跨事件持久保存,承担「超级上下文」的角色。

核心洞察:底层流式模型+上层Agents

团队在agents机制上花了数月功夫最终得出结论:走不通。原因很直接——人类能接受的时延,一次完整的模型调用都不够,更没有时间留给意图推理。所以Pask从一开始就不打算卷「更聪明」的执行agents,而是只做一件事:更快、更准地猜中人的心思。不做更大的模型,也不做更复杂的调用逻辑,而是回答一个问题——它能不能在连续上下文里看懂你,在你开口之前就知道你的深层意图,并在准确的时机用极短的时间给出最有价值的帮助。