问题
模型请求的上下文是有上限的
短期记忆
滑动窗口
就是尽可能保存对话记录的情况下,把最久的用户对话删除,会丢失重要信息
摘要记忆
利用LLM的摘要能力,对此前的对话进行总结,并替代完整的对话内容,例如
# 摘要
def context_summary(message_list):
if not message_list:
return []
conversation_text = ""
for msg in message_list[-8:]: # 只总结最后8条
conversation_text += f"{msg.get('role', '')}: {msg.get('content', '')}\n"
prompt = f"请总结以下对话的关键信息(不要重复原话,保持简洁):\n{conversation_text}"
response = client.chat.completions.create(
model=OPENAI_MODEL_NAME,
messages=[{"role": "user", "content": prompt}],
temperature=0.3
)
summary = response.choices[0].message.content or "对话总结生成失败"
return [{"role": "system", "content": f"历史对话总结:{summary}"}]
长期记忆
知识图谱
将对话中的实体和关系提取出来存入知识图谱(图数据库),Agent查询图谱获取相关信息
向量数据库
对数据库进行相似搜索,召回片段作为上下文,是实现RAG的核心
