声明:本站文章均为作者个人原创,图片均为实际截图。如有需要请收藏网站,禁止转载,谢谢配合!!!

任务完成与准确性

  • 任务成功率:最终目标是否达成
  • 正确性:输出事实和逻辑是否正确
  • 有用性:输出对用户是否切实有用

规划与推理能力

  • 步骤合理性:中间计划步骤是否合乎逻辑
  • 错误恢复能力:遇到错误后能否自主修正
  • 轨迹匹配度:实际执行路径与参考路径的一致性

工具使用能力

  • 工具选择准确率:是否选择了正确的工具
  • 参数填充正确率:调用工具时的参数是否正确
  • 调用的必要性:是否避免了不必要的工具调用

效率与资源消耗

  • 执行时间 / 延迟
  • 执行步数
  • Token消耗量 / API调用次数
  • 内存使用量

安全与伦理合规

  • 幻觉率:产生与事实不符输出的频率
  • 毒性/偏见率:是否产生有害或有偏见的内容
  • 合规性:是否遵守预定义的策略和标准流程

用户体验与交互

  • 连贯性:多轮对话中逻辑和叙事的连贯程度
  • 用户满意度 (CSAT):用户对交互结果的评分

多Agent协作

  • 信息共享度:Agent间信息传递的充分性
  • 协调效率:协作完成任务的时间与步骤开销

长期记忆一致性

  • 信息回溯准确率:能否在后续对话中准确回忆之前的关键信息
  • 记忆稳定性:长期记忆是否随任务进展保持一致

适应与学习能力

  • 模型增量改进幅度:在持续交互中性能的提升程度
  • 新环境适应速度:面对未见场景时的表现退化程度

鲁棒性与不确定性

  • 对抗性输入下的表现:面对异常/对抗输入时的稳定性
  • 不确定条件下的决策质量:信息不足时的决策合理性

端到端系统性能

  • 全链路完成率:从任务下发到最终交付的完整成功率
  • 系统吞吐量:单位时间内完成的Agent任务数量