Agent 工作流验收表

Agent 能跑通 demo，不代表可以进入真实业务。上线前要回答：任务是否稳定成功、失败能否回退、敏感信息是否被拦截、日志是否能复盘、成本是否可控、责任边界是否清楚。

适合上线前检查适合业务负责人适合技术与运营协同

核心结论

Agent 验收不是看一次结果好不好，而是看一组代表性任务中，系统是否稳定、可控、可追踪、可回退。

适合谁

准备把 Agent、Dify 工作流、n8n 自动化、Coze 原型或私有化 AI 助手接入真实业务的团队。

交付什么

上线前验收表、测试样例清单、风险复核点、异常回退策略和上线建议。

验收的 6 个维度

维度	检查问题	不达标风险
任务成功率	在代表性测试集里，是否能稳定完成核心任务？	上线后频繁失败，业务方失去信任。
输出质量	是否准确、完整、格式稳定，并能进入下游系统？	人工返工过多，自动化收益被抵消。
风险拦截	是否能识别敏感信息、低置信度和越权请求？	引发合规、客户数据或商业风险。
人工复核	哪些任务必须转人工，谁负责确认？	责任链条不清，错误无人兜底。
异常回退	失败时是否能停止、重试、降级或转人工？	错误继续扩散到 CRM、飞书、客户消息等系统。
执行日志	是否记录输入、模型、工具调用、检索材料和最终输出？	问题无法复盘，也无法证明系统可靠。

上线前验收清单

是否有不少于 20 条代表性测试样例？
测试样例是否覆盖正常、边界、风险和失败场景？
是否定义任务成功率最低阈值？
是否定义输出质量评分标准？
是否列出必须人工复核的条件？
是否明确异常回退方式和负责人？
是否记录完整执行日志？
是否评估单次执行成本和峰值成本？
是否确认结果进入下游系统前有必要校验？
是否设置上线后的定期复测机制？

建议上线阈值

以下阈值不是行业硬标准，而是适合中小团队做上线前判断的保守起点。风险越高，阈值越应该提高。

场景类型	建议阈值	上线方式
内部辅助建议	核心任务成功率 80% 以上，关键字段完整。	可灰度上线，保留人工确认。
客户交付材料	成功率 90% 以上，风险点必须命中。	必须人工复核后交付。
自动写入业务系统	成功率 95% 以上，异常可回退，日志完整。	先小范围灰度，再逐步放量。
高敏数据或合规场景	敏感信息拦截和权限检查必须稳定。	不建议全自动，必须保留审批。

Acceptance Template

验收表模板

用于上线评审会或内部复盘，先填基础信息，再按测试集、质量指标、风险控制、日志复盘和上线建议逐项判断。

工作流名称________________

负责人________________

上线范围________________

测试日期________________

01

测试集

正常样例: ____ 条
边界样例: ____ 条
风险样例: ____ 条
失败样例: ____ 条

02

质量指标

任务成功率: ____ %
输出完整率: ____ %
格式合规率: ____ %
风险命中率: ____ %
平均人工修改比例: ____ %

03

风险控制

必须人工复核条件：________________________________________________

异常回退方式：________________________________________________

敏感信息处理方式：________________________________________________

下游系统写入前校验：________________________________________________

04

日志与复盘

记录输入
记录模型和工具调用
记录检索材料
记录人工修改

05

上线建议

可以上线灰度上线继续打磨暂停上线

备注

________________________________________________________________________________________________