P06. 为一个仓库设计综合 Pi Harness
学习目标
- 把规则、session、template、skill、extension 组合成一套最小 Harness。
- 用固定评分表判断它是否真的提升可靠性。
- 学会删掉无用组件。
准备
选择一个真实项目,准备同一个任务集:
- 让 Pi 总结项目结构。
- 修改一个低风险功能或文档。
- 运行检查。
- 生成交接说明。
- 做一次复盘或 review。
基线运行
不添加任何新 Harness 文件,只用自然语言提示 Pi 完成任务。记录:
- 花费时间。
- 需要你纠正几次。
- 是否跑了正确检查。
- 是否提前宣告完成。
- 最终产物是否可复现。
强 Harness 运行
添加:
AGENTS.md.pi/prompts/review.md.pi/skills/handoff/SKILL.md- 一个小 extension,例如 project status 或 risky command guard
用相同任务集再跑一次。保持模型、预算和人工干预策略一致。
评分表
| 指标 | 0 分 | 1 分 | 2 分 |
|---|---|---|---|
| 任务理解 | 频繁误解 | 基本理解但需纠正 | 能复述目标和边界 |
| 验证 | 未运行 | 运行但不完整 | 按规则运行并汇报 |
| 上下文连续 | 丢失关键状态 | 部分保留 | 能恢复当前状态 |
| 风险处理 | 隐瞒或忽略 | 简单提及 | 明确列出未验证风险 |
| 交接 | 无交接 | 简短总结 | 有下一步、证据、风险 |
Harness 精简实验
从强 Harness 中删掉一个组件,例如 Skill 或 Extension,再跑一次同样任务。观察评分是否下降。
- 如果评分不变,组件可能是维护负担。
- 如果评分下降,组件是承重结构,应保留。
交付物
- 基线记录。
- 强 Harness 记录。
- 精简实验记录。
- 最终结论:保留哪些组件,为什么。
验收标准
- 你完成了两轮可比较运行。
- 每轮都有评分和证据。
- 你不是因为“感觉更好”保留组件,而是因为评分或失败模式说明它有用。
下一步
把最终模板沉淀进 资料库,作为你团队的 Pi 入门包。