任务完成与准确性
- 任务成功率:最终目标是否达成
- 正确性:输出事实和逻辑是否正确
- 有用性:输出对用户是否切实有用
规划与推理能力
- 步骤合理性:中间计划步骤是否合乎逻辑
- 错误恢复能力:遇到错误后能否自主修正
- 轨迹匹配度:实际执行路径与参考路径的一致性
工具使用能力
- 工具选择准确率:是否选择了正确的工具
- 参数填充正确率:调用工具时的参数是否正确
- 调用的必要性:是否避免了不必要的工具调用
效率与资源消耗
- 执行时间 / 延迟
- 执行步数
- Token消耗量 / API调用次数
- 内存使用量
安全与伦理合规
- 幻觉率:产生与事实不符输出的频率
- 毒性/偏见率:是否产生有害或有偏见的内容
- 合规性:是否遵守预定义的策略和标准流程
用户体验与交互
- 连贯性:多轮对话中逻辑和叙事的连贯程度
- 用户满意度 (CSAT):用户对交互结果的评分
多Agent协作
- 信息共享度:Agent间信息传递的充分性
- 协调效率:协作完成任务的时间与步骤开销
长期记忆一致性
- 信息回溯准确率:能否在后续对话中准确回忆之前的关键信息
- 记忆稳定性:长期记忆是否随任务进展保持一致
适应与学习能力
- 模型增量改进幅度:在持续交互中性能的提升程度
- 新环境适应速度:面对未见场景时的表现退化程度
鲁棒性与不确定性
- 对抗性输入下的表现:面对异常/对抗输入时的稳定性
- 不确定条件下的决策质量:信息不足时的决策合理性
端到端系统性能
- 全链路完成率:从任务下发到最终交付的完整成功率
- 系统吞吐量:单位时间内完成的Agent任务数量