tianjiyao-wiki

AI评测集失败案例

AI 命理系统里最隐蔽的风险之一，是评测看起来不错，真实使用却频繁失手。很多时候不是模型完全没能力，而是评测集本身把系统保护得太好，导致真正困难的问题从来没有进入测试范围。

这页专门用反面案例训练评测集设计为什么会失败，以及这些失败会怎样误导团队判断系统成熟度。

系统在排盘、识别、定位类题目上得分很高，整体评测看起来稳定。

真实用户最常遇到的是解释型和决策型问题，而不是纯规则题。如果评测集过度偏向可自动判分的规则题，就会把系统真正最弱的环节藏起来。

规则题是底盘，不是整套评测的主体。

系统在高风险问题上给出了“比较稳”的文字回答，因此评估被判为合格。

高风险题真正应该测试的，不只是内容写得多稳，而是系统有没有要求补充信息、有没有触发人工复核、有没有明确转向现实专业系统。

流程动作也应纳入评测，不然只能测到语言外观。

模型在评测集上表现很好，稳定输出高质量回答。

如果评测集题型、措辞、结构过于接近模型已看过的数据，系统可能只是学会了套路，而不是学会了真正泛化。

评测集必须故意覆盖陌生表达、模糊问题和边界场景。

团队评测里几乎都是标准题和常规题，系统表现良好。

没有失败案例集，就无法检验系统在信息不足、知识冲突、提示污染和高风险输入下是否仍然稳定。

成熟评测一定要把“故意让系统出错”的题单独设计出来。

系统总分不错，看起来已达上线标准。

如果边界题、高风险题只占少量权重，就算这些题全错，也可能被大量简单题的高分掩盖。

高风险失误不应按普通题权重处理，必须单独设门槛。

This site is open source. Improve this page.