Technical Note
ReSum论文解读:RL中记忆压缩优化的双轨迹奖励方案
# 个发帖
汉松 @Yonah_x
# 关注
DeepResearchAgent有一个很大的问题就是多次的搜索阅读很容易就把上下文窗口用光了,常规的做法是像ClaudeCode 一样,超过阈值就触发记忆压缩。通义的论文《ReSum》提出了一种在RL中让模型学会更好地利用压缩内容的方法。
想要查看完整笔记内容并体验 AI 智能整理功能吗?
免费注册 MeActReSum论文RL记忆压缩双轨迹奖励上下文窗口优化DeepResearchAgent