问题

模型请求的上下文是有上限的

短期记忆

滑动窗口

就是尽可能保存对话记录的情况下，把最久的用户对话删除，会丢失重要信息

摘要记忆

利用LLM的摘要能力，对此前的对话进行总结，并替代完整的对话内容，例如

# 摘要
def context_summary(message_list):
    if not message_list:
        return []
    conversation_text = ""
    for msg in message_list[-8:]:  # 只总结最后8条
        conversation_text += f"{msg.get('role', '')}: {msg.get('content', '')}\n"

    prompt = f"请总结以下对话的关键信息（不要重复原话，保持简洁）：\n{conversation_text}"

    response = client.chat.completions.create(
        model=OPENAI_MODEL_NAME,
        messages=[{"role": "user", "content": prompt}],
        temperature=0.3
    )
    summary = response.choices[0].message.content or "对话总结生成失败"
    return [{"role": "system", "content": f"历史对话总结：{summary}"}]

长期记忆

知识图谱

将对话中的实体和关系提取出来存入知识图谱（图数据库），Agent查询图谱获取相关信息

向量数据库

对数据库进行相似搜索，召回片段作为上下文，是实现RAG的核心