南洋理工发布Pask:流式意图检测+永久记忆,把贾维斯AI拉进现实
主动AI的突破:在你开口之前就知道你需要什么
让AI像助手一样主动帮助才是我们心中AGI的样子。南洋理工大学谢之非团队提出Pask——首个能够做到实时有深度、基于个人全局记忆自进化的主动智能体。核心架构包含三个模块:IntentFlow流式意图检测模型(1.5秒完成一次完整的意图检测)、MeMory多层自进化记忆系统(三层记忆体系)、PAS主动AI底层流式系统。研究人员提出了一个通用范式将被动模型转换为主动智能,包含需求检测(DD)、长期记忆(MM)和主动系统(PAS)三个相互作用的模块。

1.5秒:比现有模型快2-6倍
当其他开闭源模型普遍需要3-10秒才能推理一次人类的潜在需要时,IntentFlow只需1.5秒就能结合用户的个人工作和全局记忆完成一次完整的意图检测。研究人员从语音和视频的端到端流式模型获得灵感,选择了模型加Agents实现路径,即重新训一个在文本流上实时运行的意图检测模型构建出IntentFlow,接收文本化的多模态信息流和用户记忆自主判断人类当下需要什么。在学习、工作、日常三大领域的十类任务上进行了测试效果与闭源模型加思考链的水平相当。
三层记忆系统:像人类一样记忆
Pask借鉴计算机存储的Cache-内存-外存架构设计三层记忆体系:用户记忆(类似Cache)随时知道用户是谁有什么偏好;Workspace记忆(类似内存)负责当前事件内部的所有上下文信息;全局记忆(类似外存)现实中的事件往往是一个系列,全局记忆承担超级上下文的角色跨事件持久保存。这使得AI能够在连续上下文中看懂你,在你开口之前就知道你的深层意图。底层系统分为前端(负责信息流的输入与输出)、服务器后端(负责多进程执行循环控制与数据存储调度)、AI后端(负责连接外部模型提供可调用的搜索工具和代码执行环境)三层。第一作者谢之非本科时曾做出全球实时对话模型,开源项目累计获5k+ stars。
Proactive AI不是简单的Agents机制能做的事,研究人员从语音和视频的端到端流式模型获得灵感选择了模型加Agents实现路径。该系统分为三层前端负责信息流的输入与输出、服务器后端负责多进程执行循环控制与数据存储调度、AI后端负责连接外部模型提供可调用的搜索工具和代码执行环境。研究在学习工作日常三大领域的十类任务上进行了测试效果与闭源模型加思考链的水平相当。第一作者谢之非本科时曾做出全球实时对话模型开源项目累计获5k+ stars。当GPT-4o这类实时模型出现语音模型的应用瞬间爆发开发团队当时就想到了用一个流式模型来做意图检测才有了IntentFlow。所以Pask从一开始就不打算去卷更聪明的执行agents而是只做一件事:更快更准地猜中人的心思。