| 时间 |
论文与摘要 |
标签 |
链接 |
| 2026-01-15 |
TeleMem: Building Long-Term and Multimodal Memory for Agentic AI |
|
 |
• TeleMem 引入了统一的长期和多模态记忆框架,通过提取叙事基础信息来维护连贯的用户画像,避免模式驱动的幻觉。
• 它采用结构化写入管道进行批处理、检索和整合,显著提升存储和 Token 效率,并集成了具有 ReAct 风格推理的多模态记忆模块用于视频理解。
• 在 ZH-4O 基准测试上的实验结果表明,TeleMem 在准确率上比 SOTA Mem0 基线提升 19%,同时减少 43% 的 Token 使用量并将操作速度提升 2.1 倍。
|
| 2026-01-15 |
Grounding Agent Memory in Contextual Intent |
|
 |
• 提出了 STITCH,一种智能体记忆系统,使用"上下文意图"(包含主题范围、事件类型和关键实体类型)来索引轨迹步骤,以消除长周期任务中重复信息的歧义。
• 引入了一种检索机制,基于结构意图兼容性而非仅语义相似性来过滤和优先排序记忆片段,有效抑制上下文不兼容的历史信息。
• 提出了 CAME-Bench,一个多领域基准测试,旨在评估真实目标导向轨迹中的上下文感知检索能力,STITCH 在该基准上取得了 SOTA 性能。
|
| 2026-01-14 |
PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records |
|
|
• 提出了 PersonalAlign,一项新任务,要求 GUI 智能体通过利用长期用户记录来对齐隐式用户意图——特别是解析模糊指令和预测用户习惯。
• 提出了 AndroidIntent,一个基于 2 万条长期记录构建的基准测试,包含分层标注的用户偏好和习惯,用于评估个性化能力。
• 提出了 HIM-Agent(层级意图记忆智能体),利用流式聚合模块和层级过滤器(基于执行和状态)持续更新和组织用户记忆,以提升响应式和主动式性能。
|
| 2026-01-13 |
AtomMem: Learnable Dynamic Agentic Memory with Atomic Memory Operation |
|
|
• 提出了 AtomMem,一种动态记忆框架,将智能体记忆管理重新定义为可学习的序列决策问题,而非静态的手工设计流程。
• 将记忆过程解构为原子级 CRUD(创建、读取、更新、删除)操作,并使用强化学习(GRPO)学习任务对齐的策略来自主编排这些操作。
• 在长上下文基准测试(HotpotQA、2WikiMultihopQA、Musique)上的实验结果表明,AtomMem 通过动态调整记忆策略以适应特定任务需求,持续优于静态记忆基线。
|
| 2026-01-13 |
Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management |
|
 |
• Fine-Mem 是一个统一的强化学习框架,旨在通过将细粒度反馈与记忆操作对齐来优化 LLM 智能体的长周期记忆管理。
• 它通过分块级步骤奖励(CSR)解决奖励稀疏问题(通过构建 QA 任务提供即时监督),并通过证据锚定奖励归因(EARA)解决信用分配问题(将全局奖励与特定记忆操作关联)。
• 实验结果表明,Fine-Mem 在 Memalpha 和 MemoryAgentBench 等基准测试上持续优于强基线,展现了在不同模型间的优越适应性和泛化能力。
|
| 2026-01-12 |
MemoBrain: Executive Memory as an Agentic Brain for Reasoning |
|
 |
• MemoBrain 为工具增强型智能体引入了"执行记忆"范式,作为协同驾驶员构建依赖感知记忆并在有限预算下主动管理上下文。
• 该框架采用特定的记忆操作——轨迹折叠和选择性刷新——来组织推理进度,保留高显著性的结构骨架同时丢弃临时执行产物。
• 在 GAIA、WebWalker 和 BrowseComp-Plus 等基准测试上的实验表明,MemoBrain 通过实现长周期内连贯的目标导向推理,持续优于强基线。
|
| 2026-01-12 |
Beyond Dialogue Time: Temporal Semantic Memory for Personalized LLM Agents |
|
 |
• TSM 是一种记忆框架,为点状记忆建模语义时间,并支持持续性记忆的构建与利用。
• 它构建语义时间线来组织情景交互,并将其整合为时间感知的持续性记忆(主题和画像),以捕捉长期用户状态。
• 在记忆利用过程中,TSM 结合查询的时间意图来检索时间适当的持续性记忆,在 LongMemEval 和 LoCoMo 等基准测试上显著提升了性能。
|
| 2026-01-10 |
Bi-Mem: Bidirectional Construction of Hierarchical Memory for Personalized LLMs via Inductive-Reflective Agents |
|
 |
• Bi-Mem 是一个智能体框架,使用归纳智能体进行自下而上的聚合和反思智能体进行自上而下的校准,双向构建层级记忆(事实、场景、画像),以减少噪声和幻觉。
• 它采用关联检索机制,利用扩散激活连接跨粒度的记忆单元,实现上下文场景和特定事实的连贯回忆。
• 在 LoCoMo 基准测试上的实证评估表明,Bi-Mem 在长期个性化对话任务中显著优于领先的记忆基线。
|
| 2026-01-10 |
HiMem: Hierarchical Long-Term Memory for LLM Long-Horizon Agents |
|
 |
• HiMem 是一种为长周期对话设计的层级长期记忆框架,将细粒度的"情景记忆"(通过主题感知分割)与抽象的"笔记记忆"(通过知识提取)相结合,以桥接具体事件和稳定知识。
• 它采用冲突感知的"记忆再巩固"机制,利用检索反馈来修订和补充存储的知识,实现记忆随时间的持续自我演化和纠正。
• 在长周期基准测试上的评估表明,HiMem 在准确性、一致性和推理方面优于基线,验证了其层级组织和动态更新策略的有效性。
|
| 2026-01-10 |
Structured Episodic Event Memory |
|
 |
• SEEM 引入了双层记忆框架,结合用于静态事实的图记忆层和用于叙事进展的情景记忆层,两者都通过来源指针锚定到原始交互段落。
• 该系统采用"反向来源扩展"(RPE)机制,在检索过程中从碎片化证据重建连贯的叙事上下文,解决了长期交互中的"分散检索"问题。
• 在 LoCoMo 和 LongMemEval 等基准测试上的实验表明,SEEM 在叙事连贯性和逻辑一致性方面显著优于竞争性的记忆增强基线(如 HippoRAG 2)。
|
| 2026-01-09 |
MemBuilder: Reinforcing LLMs for Long-Term Memory Construction via Attributed Dense Rewards |
|
 |
• MemBuilder 是一个强化学习框架,训练 LLM 主动构建和管理多维记忆系统(核心、情景、语义和程序记忆),而非依赖静态提示。
• 它引入"归因密集奖励策略优化"(ADRPO)来解决奖励稀疏和信用分配问题,通过合成会话级 QA 提供即时反馈,并基于记忆组件贡献进行梯度加权。
• 实验结果表明,使用 MemBuilder 训练的轻量级 4B 模型在 LoCoMo 和 LongMemEval 等长期对话基准测试上超越了 SOTA 闭源模型(包括 Claude 4.5 Sonnet)。
|
| 2026-01-08 |
Beyond Static Summarization: Proactive Memory Extraction for LLM Agents |
|
|
• ProMem 框架:针对现有静态摘要记忆“一次性”和“无反馈”的缺陷,提出了一种基于循环处理理论(RPT)的主动记忆提取框架。
• 循环验证机制:引入“自我提问-验证”反馈回路,让智能体主动回顾原始对话以纠正幻觉并补全缺失细节,而非盲目地进行前馈式摘要。
• 性能表现:在 HaluMem 和 LongMemEval 基准测试中显著优于 Mem0 和 LightMem,且在 Token 高压缩率和小模型(SLM)场景下仍保持鲁棒性。
|
| 2026-01-08 |
Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning |
|
|
• 提出了 CompassMem,一种受事件分割理论启发的以事件为中心的记忆框架,将记忆组织为通过显式逻辑关系(因果、时序)连接的 事件图(Event Graph)。
• 将记忆从被动存储转化为 逻辑地图(Logic Map),通过“规划器-探索者-响应者”机制支持智能体在结构化依赖中主动导航。
• 引入主动多路径记忆搜索机制,根据子目标满足情况动态扩展或跳过节点,避免无效检索。
• 在 LoCoMo 和 NarrativeQA 基准测试上表现优异,特别是在多跳和时序推理任务上显著超越了 HippoRAG 和 Mem0 等基线。
|
| 2026-01-08 |
Inside Out: Evolving User-Centric Core Memory Trees for Long-Term Personalized Dialogue Systems |
|
|
• PersonaTree 框架:提出了一种基于生物心理社会模型的全局用户画像树(PersonaTree),通过约束主干 Schema 并动态更新枝叶,实现记忆的可控生长与压缩,有效解决了长程对话中的噪声积累问题。
• MemListener 与 RL 训练:利用基于过程奖励的强化学习(Process-Reward RL)训练轻量级模型 MemListener,使其能将非结构化对话流转化为结构化的 {ADD, UPDATE, DELETE} 树操作,决策性能媲美强推理模型。
• 自适应推理机制:设计了双模式推理策略,延迟敏感场景下直接利用 PersonaTree 增强生成,长尾细节需求下触发 Agentic 模式利用树结构引导深度检索,显著提升了角色一致性。
|
| 2026-01-07 |
Membox: Weaving Topic Continuity into Long-Range Memory for LLM Agents |
|
|
• Membox 架构:针对现有记忆系统“碎片化-补偿”范式的缺陷,提出以**话题连续性**为核心的分层架构,旨在保留对话的时间和因果流。
• Topic Loom 与 Trace Weaver:利用滑动窗口机制(Topic Loom)将连续对话打包成“记忆盒”,并通过 Trace Weaver 将这些盒子编织成跨越不连续时间的长程事件线索。
• 性能提升:在 LoCoMo 基准测试中,时间推理任务的 F1 分数比 Mem0 和 A-MEM 提升高达 68%,同时显著降低了 Token 消耗,实现了效率与效果的平衡。
|
| 2026-01-06 |
HiMeS: Hippocampus-inspired Memory System for Personalized AI Assistants |
|
 |
• HiMeS 是一种面向 AI 助手的记忆框架,通过整合短期对话压缩与长期用户画像存储来模拟海马体-新皮层交互。
• 它利用通过强化学习训练的短期记忆提取器进行主动预检索知识,并使用分区长期记忆网络基于历史用户交互重新排序结果。
• 在真实工业数据集上的评估表明,HiMeS 在个性化问答任务中显著优于传统 RAG 基线。
|
| 2026-01-06 |
SYNAPSE: Empowering LLM Agents with Episodic-Semantic Memory via Spreading Activation |
|
|
• SYNAPSE 是一种受脑启发的记忆架构,通过构建“统一情景-语义图”取代静态向量检索,解决了传统 RAG 无法关联语义距离远但因果相关记忆的“上下文孤立”问题。
• 它引入了扩散激活(Spreading Activation)、侧向抑制和时间衰减等认知动力学机制,在图中动态传播相关性并过滤噪声,而非仅依赖预计算链接或向量相似度。
• 在 LoCoMo 基准测试中取得 SOTA,通过不确定性门控机制显著提升了多跳推理能力和对抗性查询的鲁棒性。
|
| 2026-01-06 |
CODEMEM: AST-Guided Adaptive Memory for Repository-Level Iterative Code Generation |
|
|
• 提出了CODEMEM,一种专为仓库级迭代代码生成设计的内存管理系统。
• 引入代码上下文记忆(Code Context Memory):利用AST引导的选择机制动态更新和合并仓库上下文,保持其相关性并过滤噪声。
• 引入代码会话记忆(Code Session Memory):通过基于AST的变更分析来检测冲突和遗忘,将历史交互组织为以代码为中心的单元(Diffs),而非纯文本。
• 在CodeIF-Bench和CoderEval上取得SOTA,指令遵循能力提升约12%,并减少了2-3轮交互。
|
| 2026-01-06 |
Implicit Graph, Explicit Retrieval: Towards Efficient and Interpretable Long-horizon Memory for Large Language Models |
|
|
• LatentGraphMem 框架:提出了一种结合隐式图记忆和显式子图检索的记忆框架,通过在潜在空间存储图结构记忆以提高稳定性和效率,同时提供任务特定的显式子图检索以增强可解释性。
• 三阶段训练策略:包含图构建器训练(构建全局图表示)、子图检索器训练(在固定预算下选择相关边)和联合微调(优化构建器和检索器的协作),实现了高效的端到端问答。
• 实验验证:在 HotpotQA、NarrativeQA 和 WikiHop 等长程基准测试中,LatentGraphMem 在不同模型规模下均优于现有的显式图和隐式记忆基线,平均准确率最高提升至 63.34%。
|
| 2026-01-06 |
MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents |
|
|
• MAGMA 架构:提出了一种基于多图的智能体记忆架构,通过语义、时间、因果和实体四个正交的关系图来明确建模记忆项,解决了传统单体记忆库中信息纠缠的问题。
• 自适应拓扑检索:引入了基于意图的自适应遍历策略,根据查询意图动态选择相关的关系视图进行遍历,将记忆表示与检索逻辑解耦,实现了透明的推理路径。
• 性能表现:在 LoCoMo 和 LongMemEval 等长程基准测试中,MAGMA 优于现有的 SOTA 智能体记忆系统(如 Nemori、A-MEM),同时显著降低了检索延迟和 Token 消耗。
|
| 2026-01-06 |
TiMem: Temporal-Hierarchical Memory Consolidation for Long-Horizon Conversational Agents |
|
|
• TiMem 框架:提出了一种基于时间记忆树(TMT)的时间-层级记忆框架,将对话从原始片段逐步整合为抽象的画像表示,强调时间连续性。
• 核心机制:包含语义引导的记忆整合(无需微调)和复杂度感知的记忆召回机制(召回规划器+门控),在不同查询复杂度下平衡精度与效率。
• 实验表现:在 LoCoMo 和 LongMemEval-S 长程基准测试中均取得 SOTA(准确率分别为 75.30% 和 76.88%),同时在 LoCoMo 上显著降低了召回上下文长度(-52.20%)。
|
| 2026-01-06 |
MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory |
|
|
• MemRL 框架:提出了一个基于非参数化强化学习的框架,允许冻结权重的 LLM 智能体通过优化情景记忆来“自我进化”,解决了微调带来的遗忘问题和计算成本。
• 意图-经验-效用三元组:引入双阶段检索机制(语义召回 + 价值感知选择)和运行时效用更新规则,利用 Q 值估计来区分高价值策略与语义相似的噪声。
• 实验表现:在 HLE、BigCodeBench 和 ALFWorld 等基准测试中显著优于 MemP 和 RAG,证明了在不更新模型权重的情况下,智能体可以通过运行时试错持续提升能力。
|
| 2026-01-05 |
SimpleMem: Efficient Lifelong Memory for LLM Agents |
|
|
• 提出了SimpleMem,一种基于语义无损压缩的、专为终身LLM智能体设计的高效记忆框架。
• 该系统通过三阶段流水线运行:语义结构化压缩以过滤低熵噪声,递归记忆整合以合成抽象表征,以及自适应查询感知检索以最小化Token使用。
• 在LoCoMo基准上的实验表明,与全上下文模型相比,F1分数提高了26.4%,推理Token消耗减少了高达30倍,显著优于Mem0等基线。
|
| 2026-01-05 |
Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents |
|
|
• AgeMem 框架:提出了一种统一的智能体记忆框架,将长期记忆(LTM)和短期记忆(STM)的管理直接作为工具化动作(如增删改、摘要、过滤)整合到智能体策略中。
• 三阶段渐进式 RL:为了解决记忆操作带来的奖励稀疏问题,设计了分步 GRPO 算法和三阶段训练策略(LTM构建、干扰下的STM控制、综合推理),实现端到端优化。
• 实验效果:在 ALFWorld、HotpotQA 等五个长程基准测试中,AgeMem 在任务完成率、记忆质量和上下文使用效率上均显著优于 LangMem 和 Mem0 等现有基线。
|
| 2025-12-31 |
Nested Learning: The Illusion of Deep Learning Architecture |
|
|
• arxiv 完整版, 包括所有附录内容. 非之前公布的残血版.
• 梳理了一个Nested Leaning的学习范式, 统一了很大一部分的optimizer + TTT layer.
• 结构创新:HOPE: 由 modified Titans attention + self modified FFN 组成, 通过控制FFN层参数self-modified的更新频率, 使得不同更新频率FFN层在运行时隐式记住中不同层级的记忆.
• 试验偏弱.
|
| 2025-12-25 |
Beyond Heuristics: A Decision-Theoretic Framework for Agent Memory
Management |
|
|
• TeleAI背景, 一个理论框架(DAM), 把记忆的读写的时机和内容的问题包装成一个决策论下的最优问题. 考虑类似RL问题的可以参考一下.
• 基本无试验.
|
| 2025-12-21 |
MemEvolve: Meta-Evolution of Agent Memory Systems |
|
|
• oppo背景的文章, 通过设计双层框架在RL问题中分离记忆抽取式的学习(一层学习)和记忆抽取方式本身的学习(二层学习).
• 试验基于Flash-Searcher和GPT-5-Mini, 在包括GAIA上取得SOTA.
|
| 2025-12-20 |
MemR³: Memory Retrieval via Reflective Reasoning for LLM Agents |
|
|
• MemR³ 闭环检索控制器:为长期对话记忆设计,能动态选择检索、反思、回答三种动作。
• 证据-缺口状态追踪器:系统维护一个全局的 (证据, 缺口) 状态,明确追踪“已掌握什么”和“还缺什么”,使过程可解释。
• 试验显示,在LoCoMo基准测试上,MemR³能显著提升不同底层记忆系统(如RAG、Zep)的回答质量。
|
| 2025-12-18 |
Learning Hierarchical Procedural Memory for LLM Agents
through Bayesian Selection and Contrastive Refinement |
|
|
• 基于贝叶斯的程序记忆(经验)框架:MACLA.
• 整体仍然是一个基于规则的算法,操作包括提取,检索存储,精炼(贝叶斯后验概率校准).
• 在ALFWorld的未见任务上,性能(90.3%)反而比已见任务(87.2%)更高,实现了+3.1%的正泛化。
|
| 2025-12-14 |
HINDSIGHT IS 20/20: BUILDING AGENT MEMORY THAT RETAINS, RECALLS, AND REFLECTS |
|
|
• HINDSIGHT 是一种统一的记忆架构,将记忆视为结构化的、一流的推理基质,将信息组织为四个逻辑网络:世界事实、智能体经验、综合实体摘要和不断演化的信念。
• 该系统引入了 TEMPR(时序实体记忆启动检索)用于构建时序实体图,以及 CARA(连贯自适应推理智能体)用于基于偏好的条件推理,使智能体能够从认识论上区分证据和推理。
• 在 LongMemEval 和 LoCoMo 基准测试上的实验结果表明,HINDSIGHT 在多会话一致性和开放域问答方面显著优于现有记忆系统和全上下文前沿模型。
|
| 2025-12-11 |
Remember Me, Refine Me: A Dynamic Procedural Memory
Framework for Experience-Driven Agent Evolution |
|
|
• ReMe的文章版, 阿里背景的关于LLM程序记忆(经验)进行增强的框架. 包含框架算法ReMe和数据集reme.library。
• 核心是维护一个经验池,操作包括获取(Acquisition), 重用(Reuse),精炼(Refinement)。
• BFCL-V3和AppWorld上的试验显示动态经验池好于静态经验池好于baseline, 有针对模型和judge模型的scale试验.
|
2025-12-10 |
LightSearcher: Efficient DeepSearch via Experiential Memory |
|
|
• LightSearcher是基于经验记忆的RL高效搜索架构,在大模型强化推理过程中,不依赖额外数据,通过“对比经验记忆”将隐性推理轨迹转化为显性经验指导,实现Agent搜索工具调用的自主优化。
• 在四个多跳QA基准数据集(NQ、HotpotQA、Musique、2WikiMultihopQA)上,保持与SOTA DeepSearch基线相当准确率,搜索工具调用和模型回复时间显著缩短。
• 搜索工具调用次数减少 39.6%,推理时间缩短 48.6%,Token消耗降低 21.2%,在保持模型效果的同时显著提升了工具调用效率。
|
| 2025-12-3 |
MemVerse: Multimodal Memory for Lifelong Learning Agents |
|
|
• 针对多模态agent的终身学习记忆框架.
• 检索式长期记忆 + 参数化快速记忆 + 定期蒸馏机制.
• 如何处理多模态: 统一转化为文本描述.
• 试验主要在ScienceQA(文本), MSR-VTT(视频)上展示了超出基线的性能,LoCoMo(文本)试验在附录中尚未没有公开.
|
| 2025-11-12 |
ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning |
|
|
• 介绍了 ComoRAG,这是一个受人类前额叶皮层启发的检索增强生成框架,旨在实现长叙事上下文中的有状态推理。
• 该框架采用动态记忆工作空间和元认知调节循环(包括自我探测、记忆融合和记忆更新),以迭代方式将碎片化的证据融合为连贯的上下文。
• 实验结果表明,ComoRAG 在 NarrativeQA 和 ∞BENCH 等具有挑战性的基准测试中持续优于强大的基线,特别是在需要全局理解的复杂叙事查询中表现出色。
|
| 2025-11-04 |
MemSearcher Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning |
|
 |
• MemSearcher 是一个通过端到端强化学习(RL)训练的大型语言模型(LLM)智能体,旨在提高知识获取任务的效率。
• MemSearcher 通过采用一种称为多上下文组相对策略优化(Multi-Context GRPO)的新框架来优化记忆管理,使模型能够在多个对话中自我演化。
• 与传统的 ReAct 搜索智能体相比,MemSearcher 在保持低令牌消耗的同时提供了显著的性能改进,尤其是在较小的模型上。
|
| 2025-10-15 |
D-SMART: Enhancing LLM Dialogue Consistency via Dynamic Structured Memory And Reasoning Tree |
|
|
• 提出了 D-SMART,这是一个与模型无关的框架,旨在通过将动态结构化记忆(DSM)与推理树(RT)耦合来维持多轮对话中的逻辑和事实一致性。
• DSM 从对话历史中增量构建符合 OWL 标准的知识图谱以防止上下文衰减,而 RT 则引导 LLM 在该图谱上进行明确的、可追溯的多步推理。
• 在 MT-Bench-101 上的综合实验表明,D-SMART 显著优于最先进的基线,一致性得分提高了 48% 以上,并在扩展对话中表现出强大的稳定性。
|
| 2025-10-14 |
Memory as Action Autonomous Context Curation for Long-Horizon Agentic Tasks |
|
 |
• Memory-as-action (MemAct) 解决了大型语言模型(LLM)在长期任务中的工作记忆管理问题。
• MemAct 将记忆管理转化为可学习的内在能力,使智能体能够在执行任务时动态管理记忆,并引入动态上下文策略优化(DCPO)算法来处理记忆编辑引起的轨迹断裂问题。
• MemAct 在多目标问答任务中表现出色,展示了比传统模型更高的准确性和鲁棒性。
|
| 2025-10-12 |
MemGen Weaving Generative Latent Memory for Self-Evolving Agents |
|
 |
• MemGen 是一个动态生成式记忆框架,旨在增强基于大型语言模型(LLM)的智能体的推理和决策能力。
• MemGen 通过将记忆与推理过程交织在一起来模拟人类认知模式。
• 该框架由两部分组成:记忆触发器和记忆编织器,它们可以动态决定何时调用潜在记忆并将其整合到推理过程中。
|
| 2025-10-10 |
How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior |
|
 |
• 该论文研究了大型语言模型(LLM)智能体中的记忆管理及其对长期性能的影响。
• 它识别了诸如错误传播和经验重放不一致等问题,强调了高质量记忆的重要性。
• 通过比较多种记忆插入和删除策略,该研究发现选择性插入对长期学习表现更好,而历史删除在减少低质量记忆记录方面特别有效。
|
| 2025-10-09 |
Enabling Personalized Long-term Interactions in LLM-based Agents through Persistent Memory and User Profiles |
|
 |
• 介绍了一种用于自适应、以用户为中心的 AI 智能体框架,该框架结合了持久记忆、动态协调和不断演化的用户画像,以实现个性化的长期交互。
• 该方法整合了既定的智能体 AI 模式——如多智能体协作和多源检索——以及自我验证和隐式用户画像等机制,以根据个人需求定制响应。
• 在三个公共数据集和试点用户研究上的评估表明,与标准 RAG 基线相比,在检索准确性、响应正确性和感知个性化方面都有所改进。
|
| 2025-10-08 |
ToolMem: Enhancing Multimodal Agents with Learnable Tool Capability Memory |
|
 |
• TOOLMEM 让智能体把“使用不同工具后的表现经验”沉淀成可检索的记忆;做新任务时检索相关经验并注入上下文,从而更准地评估并选择工具。
• TOOLMEM 把每个工具的能力总结成结构化条目,交互得到任务、工具输出和质量反馈后,先检索相似记忆再用 RAG 方式合并/修正,持续更新能力库;推理时同样检索并用于质量预测或工具选择。
• 在文本生成和文生图上,对比无记忆与 few-shot 等基线;结果显示 TOOLMEM 在质量评分预测和多工具择优上整体更稳定、更好。
|
| 2025-10-07 |
CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension |
|
|
• 该论文介绍了 CAM,这是一个受让·皮亚杰理论启发的建构主义智能体记忆系统,旨在增强大型语言模型(LLM)在长文档理解方面的能力。
• CAM 具有结构化图式、灵活的同化和动态的顺应特性,利用增量重叠聚类算法实现高效的记忆发展,并采用自适应的修剪和生长策略进行检索。
• 在多个基准测试的实验结果表明,与现有的结构化和非结构化记忆方法相比,CAM 在性能和效率方面都实现了双重优势。
|
| 2025-09-30 |
MEM-α: LEARNING MEMORY CONSTRUCTION VIA REINFORCEMENT LEARNING |
|
|
• 提出了 Mem-α,这是一个强化学习框架,通过交互和反馈训练智能体有效管理复杂的记忆系统(包括核心记忆、情景记忆和语义记忆组件)。
• 与依赖预定义指令的方法不同,Mem-α 将记忆构建视为序列决策问题,直接优化下游问答准确性。
• 实验结果表明,Mem-α 显著优于现有基线,并展示了卓越的泛化能力,尽管仅在 30k 令牌序列上训练,却能有效处理超过 400k 令牌的上下文。
|
| 2025-09-29 |
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory |
|
|
• ReasoningBank 把智能体在测试阶段做任务时产生的成功/失败轨迹“提炼成可复用的推理记忆”,新任务来时检索相关记忆来指导决策,并把新经验再写回形成闭环,从而在无真值反馈的 test-time learning 场景里持续变强。
• 每条记忆被压缩成结构化 memory item,通过 embedding 相似度检索 top-k 注入系统指令;任务完成后用 LLM-as-a-judge 给轨迹打“成功/失败”代理信号:成功轨迹抽取可迁移策略,失败轨迹抽取陷阱与防错护栏,最后用“直接追加”的轻量方式写入库。同时提出 MaTTS:并行扩展用多条轨迹做 self-contrast 以筛掉伪解、提炼稳定规律;串行扩展用自我反思/自我修正把中间推理也转成记忆信号。
• 在 WebArena、Mind2Web和 SWE-Bench-Verified上,对比 No Memory、Synapse、AWM 等基线;WebArena 用 BrowserGym 环境、每题最多 30 步,并用成功率与平均步数等衡量效果与效率。结果显示 ReasoningBank 在多种 backbone 上整体更好。
|
| 2025-09-29 |
Pretraining with hierarchical memories: separating long-tail and common knowledge |
|
|
• 提出了一种"带记忆的预训练"架构,将推理能力(锚定模型)与长尾世界知识(分层记忆库)解耦。
• 该系统在推理过程中动态检索并将上下文相关的参数块从大规模记忆库附加到小型锚定模型上,实现了高效的扩展。
• 实验表明,一个经记忆增强的 160M 模型可以匹配参数量超过两倍的标准模型的性能,特别是在长尾知识任务中表现出色。
|
| 2025-09-26 |
Conflict-Aware Soft Prompting for Retrieval-Augmented Generation |
|
|
• "冲突感知检索增强生成"(CARE)模型旨在解决检索增强生成(RAG)中出现的上下文-记忆冲突问题。
• CARE 通过引入上下文评估器来优化大型语言模型(LLM)的性能,特别是在处理外部知识和内部知识之间的冲突时。
• 该方法通过冲突感知微调、软提示和对抗性软提示等技术,显著增强了模型在多个任务中的准确性和可靠性。
|
| 2025-09-26 |
PRIME Planning and Retrieval-Integrated Memory for Enhanced Reasoning |
|
|
• PRIME 是一个多智能体推理框架。PRIME 通过快速响应智能体为简单问题提供直观答案。
• PRIME 通过多个特定智能体(如记忆、规划、搜索和阅读智能体)执行复杂推理。
• PRIME 仍需要改进其信念纠正机制并优化智能体之间的交互。
|
| 2025-09-25 |
SGMEM: Sentence Graph Memory for Long-Term Conversational Agents |
|
|
• SGMem 是一个分层记忆管理框架,旨在通过将对话组织为句子级图谱来解决长期对话智能体中的记忆碎片化问题。
• 它显式地建模跨轮次、回合和会话的关联,并使用多跳检索机制将原始对话历史与生成的记忆(如摘要、事实和洞察)整合在一起。
• 在 LongMemEval 和 LoCoMo 基准测试上的大量实验表明,SGMem 持续改进检索连贯性,并在问答准确性方面优于强大的基线。
|
| 2025-09-22 |
PRINCIPLES: Synthetic Strategy Memory for Proactive Dialogue Agents |
|
|
• PRINCIPLES 用离线 self-play 自动“总结可检索的对话策略原则”,在推理时按当前情境检索并注入这些原则来指导策略选择与回复生成,无需额外训练。
• 离线阶段:模拟多轮对话并用奖励判断“成功/失败”;成功则从对话中抽取原则,失败则生成并修订策略、回到失败前重试直到成功,再从“失败→成功”的对比中抽取形如 should… rather than… because… 的原则。在线阶段:用情境检索 top-k 原则,再做一次“重解释”让原则更贴合当前对话,最后据此规划策略并生成回复。
• 在情感支持与劝服任务上评测,指标含成功率/轮次,以及策略预测 F1 与熵。结果整体提升成功率与策略匹配度,并提高策略分布熵;消融显示检索与重解释是关键,人评也在多个维度偏好 PRINCIPLES。
|
| 2025-09-16 |
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research |
|
|
• 介绍了 WebWeaver,这是一个由规划器和写作器组成的双智能体框架,旨在通过模拟人类研究过程来解决开放式深度研究(OEDR)问题。
• 规划器使用动态循环将证据获取与大纲优化交织在一起,构建证据记忆库;写作器执行分层的、基于引用的检索,逐节撰写报告。
• WebWeaver 通过有效管理长上下文并通过有针对性的记忆检索缓解幻觉,在 DeepResearch Bench 等基准测试上实现了最先进的性能。
|
| 2025-09-15 |
MOOM: Maintenance, Organization and Optimization of Memory in Ultra-Long Role-Playing Dialogues |
|
|
• MOOM 是一个为超长角色扮演对话设计的双分支记忆提取框架,将"情节发展"和"角色刻画"建模为核心叙事元素。
• 它融合了基于"竞争-抑制"理论的新颖遗忘机制,以有效控制记忆容量并防止不受控制的扩展。
• 作者引入了 ZH-4O,这是一个大规模的中文角色扮演数据集,平均包含 600 轮对话和手动记忆标注,展示了 MOOM 相对于最先进方法的卓越性能。
|
| 2025-09-13 |
Pre-Storage Reasoning for Episodic Memory: Shifting Inference Burden to Memory for Personalized Dialogue |
|
|
• PREMem(情景记忆的预存储推理)是一种新颖的方法,将复杂的推理过程从响应生成阶段转移到记忆构建阶段。
• 它提取细粒度的记忆片段(分为事实、经验和主观信息),并基于认知图式理论建立显式的跨会话关系,捕获扩展和转换等演化模式。
• 在 LongMemEval 和 LoCoMo 基准测试上的实验显示了显著的性能改进,使较小的模型能够达到与较大基线相当的结果,同时减少了推理计算需求。
|
| 2025-09-11 |
OpenUnlearning:Accelerating LLM unlearning via unified benchmarking of methods and metrics |
|
 |
• 介绍了"OpenUnlearning"框架,旨在推进大型语言模型(LLM)中反学习的研究。
• OpenUnlearning 整合了广泛的反学习算法和评估方法,简化了研究遗忘的工作流程。
• 通过有针对性的和特定任务的评估,OpenUnlearning 确保了反学习评估标准的可信度和鲁棒性。
|
| 2025-08-27 |
Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning |
|
|
• Memory-R1 是一个由强化学习驱动的框架,通过两个专门的智能体使 LLM 能够主动管理和利用外部记忆:记忆管理器和回答智能体。
• 记忆管理器学习结构化操作(添加、更新、删除)来维护记忆,而回答智能体则过滤检索到的记忆以进行准确推理。
• 仅使用 152 个训练样本,它就在 LoCoMo、MSC 和 LongMemEval 上优于强大的基线,展示了高数据效率和泛化能力。
|
| 2025-08-26 |
MemoryVLA Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation |
|
 |
• MemoryVLA 是一个新开发的机器人操作框架,旨在通过整合视觉、语言和感知-认知机制来增强机器人在复杂任务中的性能。
• 该框架采用类似于人类双重记忆系统的架构,增强了机器人处理长序列任务的能力。
• MemoryVLA 引入了感知-认知记忆库(PCMB),可以有效地将历史信息与当前决策整合在一起,从而提高机器人应对复杂场景的成功率。
|
| 2025-08-21 |
Multiple Memory Systems for Enhancing the Long-term Memory of Agent |
|
|
• 提出了一个受认知心理学启发的多重记忆系统(MMS),以解决现有智能体记忆模块中低质量记忆内容的问题。
• 该系统将短期记忆处理为多样化的片段——关键词、认知视角、情景记忆和语义记忆——以构建专门的检索和上下文记忆单元。
• 在 LoCoMo 数据集上的实验结果表明,MMS 显著优于 MemoryBank 和 A-MEM 等方法,特别是在多跳推理和开放域任务中。
|
| 2025-08-18 |
Semantic Anchoring in Agentic Memory: Leveraging Linguistic Structures for Persistent Conversational Context |
|
 |
• 语义锚定是一种混合智能体记忆架构,旨在通过使用句法依赖、话语关系和共指链接等显式语言线索来丰富基于向量的存储,从而增强 LLM 的长期上下文保留能力。
• 所提出的框架采用多阶段流水线,涉及依赖解析、共指消解和话语标注,以构建混合索引,允许检索系统基于语义相似性和结构性语言角色访问记忆。
• 在适应的长期对话数据集(MultiWOZ-Long 和 DialogRE-L)上的实验结果表明,语义锚定优于强大的 RAG 基线,事实召回和话语连贯性提高了多达 18%,同时保持更高的用户满意度。
|
| 2025-08-13 |
Memp: Exploring Agent Procedural Memory |
|
 |
• Memp 把智能体的成功经验“程序化”存成可检索的程序性记忆,让LLM在新任务中直接复用做事套路,以提升成功率并减少无效步骤。
• 框架是 Build–Retrieve–Update:把轨迹/脚本等经验构成记忆条目(Build),用任务语义构造 key 做向量检索取回相关记忆(Retrieve),并在在线执行中对记忆进行新增、筛选与纠错式更新以保证可靠性。
• 在 TravelPlanner 与 ALFWorld 上,相比 ReAct 基线,Memp 整体更高分/更高成功率、步数更少;向量检索优于随机;在线更新随任务推进带来持续增益,并展示了强记忆对弱模型的迁移提升及检索数量的边际效应。
|
| 2025-08-12 |
Context as Memory Scene-Consistent Interactive Long Video Generation with Memory Retrieval |
|
 |
• "上下文即记忆"通过利用历史上下文作为记忆,显著增强了长视频生成的场景一致性和记忆容量。
• 该论文研究了关键设计,如上下文学习机制、相机控制和记忆检索策略,并指出了计算效率和生成质量之间的平衡。
• 基于扩散模型的长视频生成架构,阐述了当前的技术进展、挑战和未来方向。
|
| 2025-08-12 |
Intrinsic Memory Agents: Heterogeneous Multi-Agent LLM Systems through Structured Contextual Memory |
|
|
• 介绍了内在记忆智能体,这是一个多智能体框架,旨在使用结构化的、特定于智能体的记忆来解决上下文限制和角色不一致问题。
• 该方法采用角色对齐的记忆模板和直接从智能体输出派生的内在更新,在没有外部摘要的情况下保留了异构视角和领域专业知识。
• 在 PDDL 基准测试上的评估显示性能提高了 38.6%,同时具有高令牌效率,而案例研究显示在复杂规划任务中质量得到增强。
|
| 2025-08-06 |
RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory |
|
|
• RCR-Router 是一个角色感知的上下文路由框架,为多智能体 LLM 系统设计,以解决静态和全上下文路由的限制,如过度的令牌消耗和冗余的记忆暴露。
• 该框架根据每个智能体的特定角色和当前任务阶段动态选择语义相关的记忆子集,执行严格的令牌预算,并利用迭代反馈机制来优化上下文。
• 在多跳问答基准测试(HotPotQA、MuSiQue、2WikiMultihop)上的实验表明,与基线策略相比,RCR-Router 将令牌使用量减少了 25-47%,同时保持或提高了答案质量。
|
| 2025-08-03 |
MLP Memory: A Retriever-Pretrained Memory for Large Language Models |
|
|
• 介绍了 MLP Memory,这是一个轻量级的参数化模块,学习将检索模式内化,而无需在推理过程中显式访问文档,有效地弥合了 RAG 和参数化微调之间的差距。
• 通过预训练 MLP 来模仿 kNN 检索器在整个预训练数据集上的行为,该模型将大型数据存储压缩为可微分的记忆组件,通过概率插值与 Transformer 解码器集成。
• 实验结果表明,MLP Memory 实现了卓越的扩展行为,相对于基线将问答性能提高了 12.3%,减少了多达 10 个点的幻觉,并且推理速度比 RAG 快 2.5 倍。
|
| 2025-07-29 |
SynapticRAG:Enhancing temporal memory retrieval in large language models through synaptic mechanisms |
|
|
• 论文提出 MemTool,用于在多轮对话中管理不断变化的工具集合(MCP servers)的短期记忆框架,提供 Autonomous / Workflow / Hybrid 三种架构,以在自治性与可控性之间权衡。
• Autonomous 模式下,智能体通过 Search_Tools 与 Remove_Tools 自主增删工具;Workflow 模式采用固定流程:先剪枝删工具,再检索加工具;Hybrid 模式将删工具独立出来,同时保留智能体通过 Search_Tools 加工具的能力,实现稳定与灵活的折中。
• 基于 ScaleMCP 的 5000 个 MCP servers 构造 100 轮工具使用对话(约 5 次工具调用/轮),评测 13 个 LLM,并设定 128 工具上限。结果显示:Autonomous 在强推理模型上工具移除效率可达 90–94%,中等模型可降至 0–60%;Workflow 与 Hybrid 的工具移除更稳定,而任务完成度通常是 Autonomous 与 Hybrid 更好。
|
| 2025-07-27 |
SynapticRAG:Enhancing temporal memory retrieval in large language models through synaptic mechanisms |
|
|
• SynapticRAG 是一个用于大型语言模型(LLM)的新颖记忆检索框架,旨在增强跨会话对话中的记忆检索。
• 通过将时间关联触发器与受生物学启发的突触传播机制相结合,SynapticRAG 显著改进了相关对话历史的识别。
• 实验结果表明,该框架在多个性能指标上实现了高达 14.66% 的改进,并在动态记忆管理方面展示了明显的优势。
|
| 2025-07-17 |
MEM1 Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents |
|
 |
• MEM1 是一个创新的端到端强化学习框架,旨在提高大型语言模型(LLM)在长期多轮交互中的效率。
• MEM1 通过构建紧凑的共享内部状态,有效解决了传统模型上下文处理中的记忆膨胀问题。
• 实验结果表明,MEM1 在多个任务中显著提高了性能,同时减少了记忆使用,展示了其在动态环境中的广泛适用性和优化潜力。
|
| 2025-07-03 |
MemAgent Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent |
|
|
• MemAgent 是一种使用强化学习(RL)动态更新记忆的长文本处理方法,旨在解决大型语言模型(LLM)在处理长文本时的性能下降和高计算复杂性问题。
• 该模型通过将记忆视为潜在变量并引入流处理和多会话策略,在处理无限长度的输入时可以保持线性时间复杂度。
• 实验结果表明,MemAgent 在超长文本任务中表现出色,具有高准确性,特别是在复杂的多跳推理任务中具有明显优势。
|
| 2025-06-19 |
From RAG to Memory: Non-Parametric Continual Learning for Large Language Models |
|
|
• HippoRAG 2,是一种“类人长期记忆”的结构化 RAG:把文本抽成三元组建图,用图上的扩散式检索(PPR)做多跳联想,同时补齐传统结构化RAG在“基础事实记忆”上的短板。
• 离线用 LLM 做 OpenIE 抽取三元组建 KG,并把段落作为 passage node接入图,实现“概念—语境”融合;在线检索时先用向量召回 top-k 三元组,再让 LLM 做 triple filtering 去掉无关三元组,然后以过滤后的节点作为种子跑 PPR,输出最相关段落供生成器回答。
• 在事实问答、多跳推理与叙事理解等数据集上评测,用 Recall@5 衡量检索、用 F1 衡量 QA;对比 BM25、Contriever/GTR 及多种结构化RAG基线,结果总体显示 HippoRAG 2 在检索与最终 QA 上更强,并通过消融与持续扩展语料设置验证关键模块有效。
|
| 2025-06-09 |
G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems |
|
|
• 介绍了 G-Memory,这是一个分层记忆系统,旨在解决基于大型语言模型(LLM)的多智能体系统(MAS)缺乏自我演化能力的问题。
• 实现了三层图架构——洞察图、查询图和交互图——通过抽象可泛化的洞察和浓缩特定的协作轨迹来管理冗长的交互历史。
• 在具身动作和知识问答基准测试中的实验结果表明,G-Memory 显著增强了智能体团队的性能,在不修改原始框架的情况下将成功率提高了多达 20.89%。
|
| 2025-05-30 |
M+:Extending MemoryLLM with scalable Long-Term Memory |
|
|
• M+ 是一个记忆增强模型,旨在改善大型语言模型(LLM)中的长期信息保留。
• 基于 MemoryLLM 构建,M+ 将长期记忆机制与联合训练的检索器集成,大幅增强了模型处理跨越 20,000 个令牌的知识的能力,同时保持了可比的 GPU 内存开销。
• M+ 在多个基准测试中实现了强劲的性能,优于 MemoryLLM 和其他竞争基线,并展示了高效的信息压缩和端到端训练,表现出与人类记忆非常相似的机制。
|
| 2025-05-26 |
MemGuide: Intent-Driven Memory Selection for Goal-Oriented Multi-Session LLM Agents |
|
|
• MemGuide 是一个两阶段框架,旨在通过将任务意图和槽位级指导纳入记忆选择来增强多会话任务导向对话(TOD)。
• 它采用意图对齐检索将当前上下文与存储的意图描述匹配,并采用缺失槽位引导过滤来优先考虑使用思维链推理器填补信息空白的记忆单元。
• 作者还引入了 MS-TOD,一个多会话 TOD 基准。评估显示,与强大的基线相比,MemGuide 显著提高了任务成功率并减少了对话轮次。
|
| 2025-05-23 |
Towards General Continuous Memory for Vision-Language Models |
|
 |
• CoMEM 通过引入通用的连续记忆机制,解决了视觉-语言模型(VLM)中传统检索增强生成(RAG)的令牌过载和性能下降问题。
• 该方法创新性地将 VLM 本身用作记忆编码器,结合轻量级 Q-Former,有效地将多样化的多模态和多语言知识压缩为一组紧凑的连续嵌入。
• CoMEM 具有数据和参数效率(仅需要 1.2% 的可训练参数)并且即插即用,在保持推理模型冻结的同时显著增强了复杂多模态推理任务的性能。
|
| 2025-05-21 |
Pre-training Limited Memory Language Models with Internal and External Knowledge |
|
|
• 介绍了有限记忆语言模型(LMLM),这是一类新的模型,在预训练期间将事实知识外化到外部数据库中,而不是将其编码在参数中。
• 该方法使用修改后的预训练目标,从损失中屏蔽检索到的事实值,鼓励模型执行有针对性的事实查找,而不是记忆它们。
• 实验表明,LMLM 与明显更大的模型的事实精度相匹配,同时通过简单的数据库操作实现即时、可验证的知识更新和有效的机器反学习。
|
| 2025-05-11 |
In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents |
|
|
• 提出了反思性记忆管理(RMM),这是一个用于长期对话智能体的新颖框架,解决了僵化的记忆粒度和固定检索机制的局限性。
• 整合了前瞻性反思以动态地将对话历史组织为基于主题的记忆,以及回顾性反思以使用由 LLM 归因信号引导的在线强化学习迭代地优化检索。
• 在 MSC 和 LongMemEval 基准测试上的实验结果表明,RMM 显著优于强大的基线,准确度提高了 10% 以上,并增强了响应个性化。
|
| 2025-04-22 |
MemoRAG Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation |
|
|
• MemoRAG 旨在通过全局记忆增强检索机制改进信息检索和生成过程,从而增强大型语言模型(LLM)处理长上下文的能力。
• 该框架采用轻量级的全局记忆模块和复杂的生成系统,可以有效地管理长上下文并生成有用的线索以辅助答案生成。
• 该模型适用于各种任务,包括长文档问答和摘要,展示了其在处理复杂长文本场景方面的潜力。
|
| 2025-04-20 |
SAGE: Self-evolving Agents with Reflective and Memory-augmented Abilities |
|
|
• SAGE 通过三个协作代理(用户、助手、检查员)解决大语言模型在动态环境中的长期记忆和多任务处理能力问题。SAGE结合反思机制和基于艾宾浩斯遗忘曲线的记忆优化,帮助模型有效筛选和存储重要信息,减少认知负担。
• SAGE通过迭代反馈机制和反思功能,不断优化助手的决策。其MemorySyntax组件模拟人类记忆衰退,动态管理短期和长期记忆,确保重要信息得到保留,减少不必要的记忆负担。
• 实验表明,SAGE在AgentBench和长文本任务(如HotpotQA)上大幅提升了模型表现,尤其在多跳问答和代码生成任务中,表现提高高达2.26倍,并有效解决了对话任务中的73.6%模糊引用问题,展现了其在实际应用中的潜力。
|
| 2025-04-14 |
ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning |
|
|
• 介绍了 ComoRAG,这是一个受人类前额叶皮层启发的检索增强生成框架,旨在实现长叙事上下文中的有状态推理。
• 该框架采用动态记忆工作空间和元认知调节循环(包括自我探测、记忆融合和记忆更新),以迭代方式将碎片化的证据融合为连贯的上下文。
• 实验结果表明,ComoRAG 在 NarrativeQA 和 ∞BENCH 等具有挑战性的基准测试中持续优于强大的基线,特别是在需要全局理解的复杂叙事查询中表现出色。
|
| 2025-04-10 |
Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory |
|
|
• 论文提出 Dynamic Cheatsheet(DC)——在推理阶段给黑盒大模型加一个可持续更新的“便签式外部记忆”,把已验证的解题套路沉淀下来并在后续复用,实现无需训练的测试时学习。
• DC包含生成器 Gen 与 记忆策展 Cur:先用当前记忆生成答案,再由 Cur 提炼/筛选/压缩信息;检索式变体会按相似度取最相关历史样例及其解来辅助当前生成,同时控制记忆不膨胀。
• 在 AIME、GPQA-Diamond、Game of 24、MMLU-Pro 等多任务、跨模型(GPT-4o、Claude 3.5 Sonnet 等)评测,使用 Soft Match / Functionally Correct 等指标;结果显示 DC 在多项任务上显著提升,如 Game of 24 的跃升主要来自可复用的 Python 求解代码被反复“写入—复用”。
|
| 2025-03-07 |
Memory-augmented Query Reconstruction for LLM-based Knowledge Graph Reasoning |
|
|
• 提出 MemQ,把“推理(自然语言步骤)”和“生成/执行查询(SPARQL)”分开:LLM 负责写清楚推理计划,查询由“记忆库检索 + 规则重建”得到,减少混合工具调用带来的错误与幻觉。
• 训练时把金标 SPARQL 规则拆成查询片段(含 CVT 等结构),再为每个片段生成自然语言解释,形成(解释→片段)的查询记忆库;推理时 LLM 生成逐步计划,重建时用语义检索(Sentence-BERT)从记忆库取 Top-N 片段并自适应选取,最后按规则拼接并填充实体得到完整查询。
• 在 WebQSP 与 CWQ 上用 Hits@1、F1 评测,结果整体最优;并用结构一致性/边命中率等指标验证重建查询更接近 gold,同时消融实验证明“记忆库 + 解耦”是主要增益来源。
|
| 2025-02-25 |
Towards effective evaluation and comparisons for LLM unlearning methods |
|
|
• 该论文研究了大型语言模型(LLM)中的机器反学习及其评估的重要性,特别关注删除不需要或不必要的数据记忆。
• 它引入了带校准的反学习(UWC)来校准模型性能,并加强对不同反学习方法的评估。
• 该研究强调了选择适当评估指标的重要性,并推荐提取强度(ES)作为主要评估工具,以确保评估的准确性和鲁棒性。
|
| 2025-02-09 |
LM2 Large Memory Models |
|
|
• LM2 旨在克服传统 Transformer 在多步推理、关系论证和长上下文处理方面的局限性。
• LM2 集成了一个辅助记忆模块,利用交叉注意力机制和门控技术来增强信息存储和更新能力。
• 在多个基准测试中,LM2 展示了显著优越的性能,特别是在长上下文推理任务中表现出色,有效增强了处理和记忆复杂信息的能力。
|
| 2025-01-23 |
ON MEMORY CONSTRUCTION AND RETRIEVAL FOR PERSONALIZED CONVERSATIONAL AGENTS |
|
|
• 介绍了 SECOM,这是一种在段落级别构建记忆库的记忆管理方法,以解决长期对话中轮次级别和会话级别方法的局限性。
• SECOM 将对话划分为主题连贯的段落,并采用提示压缩(LLMLingua-2)作为去噪机制来增强检索准确性。
• 实验结果表明,SECOM 在 LOCOMO 和 Long-MT-Bench+ 等长期对话基准测试上显著优于现有基线。
|
| 2025-01-19 |
Alternate Preference Optimization for Unlearning Factual Knowledge in Large Language Models |
|
|
• 提出了交替偏好优化(AltPO),这是一种旨在有效解决大型语言模型(LLM)中机器反学习挑战的方法。
• AltPO 通过将遗忘集的负反馈与来自同一领域的正反馈相结合来生成多个替代响应,从而增强遗忘能力,同时保持整体模型性能。
• 实验结果表明,AltPO 在反学习质量和模型实用性方面都优于现有方法。
|
| 2024-12-31 |
Titans Learning to Memorize at Test Time |
|
|
• "Titans"旨在增强模型在处理长序列和复杂上下文时的记忆容量。
• Titans 架构结合了短期记忆和长期记忆模块,克服了传统递归模型和注意力机制的局限性,能够处理更大的上下文窗口。
• 实验结果表明,Titans 表现出卓越的性能和灵活性,特别是在处理长依赖关系和多样化任务方面。
|
| 2024-12-17 |
On the Structural Memory of LLM Agents |
|
|
• 该论文研究了大型语言模型(LLM)中记忆模块的结构和检索方法如何影响模型性能,重点关注不同的记忆架构及其在信息提取和生成中的作用。
• 该研究发现,混合记忆结构在复杂任务中优于其他结构,在噪声环境中展示了更强的鲁棒性。
• 通过超参数敏感性分析,该研究确定了最适合不同任务设置的记忆检索策略。
|
| 2024-12-01 |
SELF-UPDATABLE LARGE LANGUAGE MODELS BY INTEGRATING CONTEXT INTO MODEL PARAMETERS |
|
|
• 提出了 SELF-PARAM,这是一种将上下文直接集成到 LLM 参数中的方法,无需额外的存储模块,确保高效性和长期保留。
• 采用训练目标,最小化原始模型(具有上下文访问)和目标模型(没有上下文)之间的 KL 散度,利用多样化生成的问答对。
• 实验表明,SELF-PARAM 在问答和对话推荐任务中显著优于现有的持续学习和 RAG 方法,以零存储复杂度实现接近最优的性能。
|
| 2024-10-10 |
Assessing episodic memory in LLMs with sequence order recall tasks |
|
|
• 该研究引入了序列顺序回忆任务(SORT),旨在评估大型语言模型(LLM)的情景记忆能力。
• 该任务强调了情景记忆的重要性——将记忆与相关上下文(如时间和地点)联系起来——特别是在日常认知任务中。
• 初步结果表明,当提供上下文信息时,LLM 表现出强大的记忆性能,但仅依赖训练数据时,其性能会显著下降。
|
| 2024-08-19 |
ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA |
|
|
• ELDER 提出了一种使用 Mixture-of-LoRA 结构的新颖终身模型编辑方法,在数据和适配器之间建立连续关联,增强对改写输入的鲁棒性。
• 该框架将路由器网络与引导损失函数集成,以将 LoRA 分配与编辑知识对齐,并利用延迟机制来保留模型的通用能力。
• 在 GPT-2 XL 和 LLaMA2-7B 上的大量实验表明,ELDER 在可靠性、泛化性和可扩展性方面优于现有基线,同时保持下游任务的性能。
|
| 2024-08-11 |
Towards Safer Large Language Models through Machine Unlearning |
|
|
• 该论文介绍了选择性知识反学习(SKU)框架,旨在提高大型语言模型(LLM)的安全性。
• SKU 框架由两个主要阶段组成:有害知识获取,然后是知识否定,重点是删除不需要的知识,而不会在良性提示下降低模型效用。
• SKU 成功减少了有害输出,同时保持了响应质量,并在 OPT 和 LLaMA2 等多个 LLM 架构中展示了反学习有效性和模型效用之间的强大平衡。
|
| 2024-08-06 |
RULER: What’s the Real Context Size of Your Long-Context Language Models? |
|
|
• RULER 旨在跨广泛的任务对长上下文语言模型(LM)进行全面评估。
• 它通过合并多跳跟踪和聚合等任务来扩展传统的"大海捞针"(NIAH)测试,能够更全面地评估模型在长上下文设置下的理解能力。
• RULER 在多跳推理和信息检索任务中展示了强大的性能。
|
| 2024-07-22 |
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts |
|
|
• ReadAgent 是一个阅读理解系统,旨在提高大型语言模型(LLM)处理长文本时的性能。
• 通过三个步骤——情景分页、记忆摘要和交互式查找——ReadAgent 将有效上下文长度显著扩展了多达 20 倍。
• ReadAgent 在 QuALITY、NarrativeQA 和 QMSum 等长文档阅读理解基准测试中优于传统方法。
|
| 2024-06-30 |
Towards Efficient and Effective Unlearning of Large Language Models for Recommendation |
|
 |
• 介绍了 E2URec,这是一种专门为基于 LLM 的推荐系统(LLMRec)设计的推荐数据反学习方法。
• E2URec 通过仅更新低秩适应(LoRA)参数,显著提高了反学习效率,同时保持了推荐性能。
• 实验结果表明,E2URec 在真实世界数据集上优于现有的基线方法。
|
| 2024-05-30 |
Knowledge Graph Tuning: Real-time Large Language Model Personalization based on Human Feedback |
|
|
• 提出了知识图谱调优(KGT),这是一种通过基于用户反馈优化外部知识图谱来个性化大型语言模型(LLM)的新颖方法,无需修改模型参数。
• KGT 从用户交互中提取个性化的事实知识三元组,并采用启发式优化算法,避免了反向传播方法的高计算成本和低可解释性。
• 使用 Llama2 和 Llama3 等模型的实验表明,KGT 显著增强了个性化性能,同时将延迟降低了多达 84%,GPU 内存成本降低了多达 77%。
|
| 2024-05-26 |
MemoryLLM:Towards self-Update Large Language Models |
|
|
• MEMORYLLM 是一个自更新的大型语言模型,旨在有效整合新知识,同时保持长期信息保留。
• 通过在 Transformer 的潜在空间中嵌入固定大小的记忆池,MEMORYLLM 实现了模型自更新和知识保留的无缝结合。
• 关键设计特性包括存储压缩知识的记忆令牌、智能自更新机制,以及对知识整合、保留能力和鲁棒性的全面评估。
|
| 2024-05-23 |
HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models |
|
|
• HippoRAG 是一个受人类长期记忆的海马体索引理论启发的新颖检索框架,旨在为 LLM 实现更深入、更高效的知识整合。
• 通过编排 LLM、知识图谱和个性化 PageRank(PPR)来模拟新皮层和海马体,它实现了有效的单步多跳检索。
• 该方法在多跳问答任务中比最先进的检索增强生成(RAG)方法高出多达 20%,并且比迭代检索方法显著更快、更便宜。
|
| 2024-05-23 |
WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models |
|
|
• 识别了终身模型编辑中的"不可能三角"——可靠性、泛化性和局部性不能同时实现——将其归因于长期记忆和工作记忆机制之间的差距。
• 提出了 WISE,这是一个双参数记忆框架,利用侧记忆进行编辑,并使用路由器将其与预训练的主记忆桥接,采用知识分片和合并来处理连续更新。
• 大量实验表明,WISE 在多个 LLM 架构的问答、幻觉纠正和分布外泛化设置中优于现有方法。
|
| 2024-04-26 |
Enhancing Large Language Model with Self-Controlled Memory Framework |
|
|
• 提出了自控记忆(SCM)框架,为大型语言模型(LLM)释放无限长度的输入容量,无需修改或微调。
• 该框架包括一个基于 LLM 的智能体、一个用于存储历史信息的记忆流,以及一个动态管理"激活记忆"(长期)和"闪存"(短期)的记忆控制器。
• 作者还贡献了一个涵盖长期对话、书籍摘要和会议摘要的数据集,表明 SCM 与基线相比实现了卓越的检索召回和响应生成。
|
| 2024-04-24 |
From Local to Global: A GraphRAG Approach to Query-Focused Summarization |
|
|
• 介绍了 GraphRAG,这是一种基于图的检索增强生成方法,旨在解决传统向量 RAG 在回答整个文本语料库的全局问题方面的局限性。
• 该方法从源文档构建实体知识图谱,使用 Leiden 算法将其划分为分层社区,并预生成摘要以促进全局意义构建。
• 通过利用社区摘要的 map-reduce 机制,GraphRAG 在大规模数据集的全面性和多样性方面显著优于基线 RAG 系统。
|
| 2024-04-15 |
Memory Sharing for Large Language Model based Agents |
|
|
• 介绍了记忆共享(MS)框架,使多个基于 LLM 的智能体能够在动态实时池中共享提示-答案(PA)对作为记忆。
• 该框架采用双重目的机制,其中新生成的高质量记忆用于增强智能体的上下文学习,同时训练检索器以提高未来的检索相关性。
• 在文学创作和逻辑问题解决等领域的实验结果表明,MS 框架有效地将个体智能演化为集体智能,在没有显式微调的情况下显著提高了开放式问题的性能。
|
| 2024-04-13 |
LLM In-Context Recall is Prompt Dependen |
|
 |
• 研究了大型语言模型(LLM)的信息回忆能力,特别强调其对提示内容和格式的依赖性。
• 使用"大海捞针"(NIAH)评估,该研究发现回忆性能受训练数据偏差以及提示的内容和结构的强烈影响。
• 结果表明,架构改进、训练策略调整和微调都可以有效增强回忆性能。
|
| 2024-04-07 |
Online Adaptation of Language Models with a Memory of Amortized Contexts |
|
|
• 介绍了摊销上下文记忆(MAC),这是一个用于大型语言模型(LLM)的高效在线适应框架,旨在解决灾难性遗忘和保持模型最新的高计算成本问题。
• MAC 利用元学习的摊销网络将新文档压缩为存储在记忆库中的紧凑参数高效微调(PEFT)调制,使用聚合网络检索和组合特定查询的相关知识。
• 在 StreamingQA 和 SQuAD-Seq 上的实验结果表明,MAC 在适应性能和知识保留方面都显著优于现有的在线微调方法,同时提供卓越的时间和记忆效率。
|
| 2024-03-24 |
MemoryBank: Enhancing Large Language Models with Long-Term Memory |
|
|
• MemoryBank 是一个为大型语言模型(LLM)设计的长期记忆机制,用于解决连续交互中的记忆限制。
• 通过使模型能够有效地回忆、更新和适应用户记忆,MemoryBank 增强了上下文理解和用户体验。
• 实验结果和分析表明,MemoryBank 在改善情感支持和个性化交互方面是有效的。
|
| 2024-02-16 |
Large Language Model Unlearning |
|
|
• 探索了在大型语言模型(LLM)中实施"遗忘"或"反学习"的方法,以消除不需要的或不一致的行为。
• 通过应用梯度上升(GA)策略并引入随机输出损失,该研究表明反学习可以有效防止模型生成有害响应。
• 实验结果表明,GA 和 GA + Mismatch 方法在降低内容泄漏率方面表现特别好。
|
| 2024-02-06 |
Compressed context memory for online language model interaction |
|
|
• 提出了一种压缩上下文记忆方法,以改善在线语言模型在处理扩展上下文时的记忆效率和计算性能。
• 通过利用条件 LoRA 集成和并行计算,该方法显著减少了记忆需求,并支持有效的无限上下文长度,超越了传统的滑动窗口策略。
• 实验结果表明,在多任务学习和对话生成等应用中,该方法将记忆使用量减少了多达 5 倍,同时有效保持了生成质量和准确性。
|
| 2023-12-10 |
Unlearn What You Want to Forget: Efficient Unlearning for LLMs |
|
|
• 介绍了高效反学习(EUL)框架,旨在解决大型语言模型(LLM)中处理用户隐私数据的挑战。
• 随着 LLM 的广泛部署,模型可能在预训练期间无意中记忆敏感信息,引发重大隐私担忧。
• EUL 能够在不完全重新训练的情况下有效地从 LLM 中删除特定的敏感数据,同时保持整体预测性能。
|
| 2023-11-30 |
JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models |
|
|
• JARVIS-1是一款用于Minecraft的开放世界多任务代理,通过多模态语言模型(MLM)生成计划并执行任务。它能感知视觉信息和人类指令,并结合多模态记忆,利用过去的经验提升未来任务的执行能力。
• JARVIS-1结合了MLM和多模态记忆,使用视觉观察和指令生成行动计划,并通过目标控制器执行。它具有自我改进机制,能通过自我指令生成任务并探索环境,积累经验以提升决策能力。
• JARVIS-1在超过200个Minecraft任务中表现出色,特别是在长期任务(如获取钻石镐)中,成功率比现有最先进模型高出5倍。随着游戏进行,它通过不断学习和经验积累,表现逐渐提升。
|
| 2023-11-15 |
Think-in-Memory: Recalling and Post-thinking Enable LLMs with Long-Term Memory |
|
 |
• 介绍了一种新颖的记忆机制,Think-in-Memory(TiM),旨在增强大型语言模型(LLM)在长期人机交互中的性能。
• TiM 结合了基于局部敏感哈希的高效检索机制,使扩展交互中的有效记忆存储和管理成为可能。
• 实验结果表明,TiM 在多轮对话中显著提高了响应准确性和连贯性。
|
| 2023-10-16 |
Character-LLM: A Trainable Agent for Role-Playing |
|
|
• 介绍了 Character-LLM,这是一个可训练的智能体框架,通过从重构的经验中学习而不是仅依赖提示,教会 LLM 扮演特定角色(例如贝多芬)。
• 提出了一个经验上传过程,涉及档案收集、场景提取和经验完成,以生成高质量的、特定于角色的训练数据。
• 实施了保护性经验以缓解幻觉,使智能体能够有效地"忘记"或拒绝与其角色的时代或身份不一致的知识。
|
| 2023-09-22 |
Augmenting Language Models with Long-Term Memory |
|
|
• 介绍了一个新框架 LONGMEM,旨在增强大型语言模型(LLM)处理长文本的能力。
• LONGMEM 采用解耦的网络架构,将冻结的 LLM 记忆编码器与自适应残差侧网络相结合,实现长期上下文信息的高效缓存和更新。
• 通过结合专门的记忆增强层、基于令牌的记忆检索模块和联合注意力机制,LONGMEM 改进了记忆检索和上下文利用,并在各种任务中展示了有效性。
|
| 2023-08-16 |
MemoChat: Tuning LLMs to Use Memos for Consistent Long-Range Open-Domain Conversation |
|
|
• 提出了 MemoChat,这是一个指令调优流水线,旨在使大型语言模型(LLM)能够采用自我编写的备忘录来维持长距离开放域对话中的一致性。
• 该方法利用"记忆-检索-响应"循环,教会 LLM 将对话历史重构为备忘录,并检索相关证据来回答当前查询。
• 实验表明,MemoChat 在新策划的、专家标注的一致性基准(MT-Bench+)上优于强大的基线,验证了配备备忘录的内部思维过程的有效性。
|
| 2023-05-23 |
RET-LLM: Towards a General Read-Write Memory for Large Language Models |
|
|
• RET-LLM 是一个框架,为大型语言模型(LLM)配备了专用的读写记忆单元,使它们能够显式地从文本中提取、存储和回忆知识。
• 受戴维森语义学启发,该系统以三元组(概念、关系、概念)的形式提取知识,并使用控制器通过基于文本的 API 管理 LLM 与记忆模块之间的交互。
• 记忆单元设计为可扩展、可更新和可解释的,有效地处理静态模型经常失败的基于时间的问答任务。
|
| 2023-05-22 |
RECURRENTGPT: Interactive Generation of (Arbitrarily) Long Text |
|
|
• 介绍了 RECURRENTGPT,这是一个基于语言的 LSTM 循环机制的模拟,构建在 LLM 之上,以生成任意长度的文本而不会遗忘。
• 利用双重记忆系统:在提示中更新的短期记忆和通过语义搜索检索的存储在硬盘上的长期记忆。
• 实现可解释和交互式的文本生成("AI 即内容"),允许人类用户在生成过程中观察和编辑自然语言记忆和计划。
|
| 2023-05-08 |
Prompted LLMs as Chatbot Modules for Long Open-domain Conversation |
|
|
• 提出了 MPC(模块化提示聊天机器人),这是一种使用预训练 LLM 作为独立模块(澄清器、记忆处理器、话语生成器、摘要器)的新颖方法,以创建高质量的对话智能体而无需微调。
• 利用少样本提示、思维链(CoT)和外部记忆(使用 DPR)等技术,在开放域对话中实现长期一致性和灵活性。
• 人类评估结果表明,MPC 在合理性、一致性和吸引力方面与 Blenderbot3 等微调模型相当或更优,特别是在维持长期人物一致性方面。
|