Agent 工作流验收表

Agent 能跑通 demo,不代表可以进入真实业务。上线前要回答:任务是否稳定成功、失败能否回退、敏感信息是否被拦截、日志是否能复盘、成本是否可控、责任边界是否清楚。

适合上线前检查 适合业务负责人 适合技术与运营协同

核心结论

Agent 验收不是看一次结果好不好,而是看一组代表性任务中,系统是否稳定、可控、可追踪、可回退。

适合谁

准备把 Agent、Dify 工作流、n8n 自动化、Coze 原型或私有化 AI 助手接入真实业务的团队。

交付什么

上线前验收表、测试样例清单、风险复核点、异常回退策略和上线建议。

验收的 6 个维度

维度 检查问题 不达标风险
任务成功率 在代表性测试集里,是否能稳定完成核心任务? 上线后频繁失败,业务方失去信任。
输出质量 是否准确、完整、格式稳定,并能进入下游系统? 人工返工过多,自动化收益被抵消。
风险拦截 是否能识别敏感信息、低置信度和越权请求? 引发合规、客户数据或商业风险。
人工复核 哪些任务必须转人工,谁负责确认? 责任链条不清,错误无人兜底。
异常回退 失败时是否能停止、重试、降级或转人工? 错误继续扩散到 CRM、飞书、客户消息等系统。
执行日志 是否记录输入、模型、工具调用、检索材料和最终输出? 问题无法复盘,也无法证明系统可靠。

上线前验收清单

  • 是否有不少于 20 条代表性测试样例?
  • 测试样例是否覆盖正常、边界、风险和失败场景?
  • 是否定义任务成功率最低阈值?
  • 是否定义输出质量评分标准?
  • 是否列出必须人工复核的条件?
  • 是否明确异常回退方式和负责人?
  • 是否记录完整执行日志?
  • 是否评估单次执行成本和峰值成本?
  • 是否确认结果进入下游系统前有必要校验?
  • 是否设置上线后的定期复测机制?

建议上线阈值

以下阈值不是行业硬标准,而是适合中小团队做上线前判断的保守起点。风险越高,阈值越应该提高。

场景类型 建议阈值 上线方式
内部辅助建议 核心任务成功率 80% 以上,关键字段完整。 可灰度上线,保留人工确认。
客户交付材料 成功率 90% 以上,风险点必须命中。 必须人工复核后交付。
自动写入业务系统 成功率 95% 以上,异常可回退,日志完整。 先小范围灰度,再逐步放量。
高敏数据或合规场景 敏感信息拦截和权限检查必须稳定。 不建议全自动,必须保留审批。
Acceptance Template

验收表模板

用于上线评审会或内部复盘,先填基础信息,再按测试集、质量指标、风险控制、日志复盘和上线建议逐项判断。

工作流名称________________
负责人________________
上线范围________________
测试日期________________
01

测试集

正常样例
____ 条
边界样例
____ 条
风险样例
____ 条
失败样例
____ 条
02

质量指标

任务成功率
____ %
输出完整率
____ %
格式合规率
____ %
风险命中率
____ %
平均人工修改比例
____ %
03

风险控制

必须人工复核条件:________________________________________________

异常回退方式:________________________________________________

敏感信息处理方式:________________________________________________

下游系统写入前校验:________________________________________________

04

日志与复盘

  • 记录输入
  • 记录模型和工具调用
  • 记录检索材料
  • 记录人工修改
05

上线建议

可以上线 灰度上线 继续打磨 暂停上线
备注

________________________________________________________________________________________________