AI 命理系统里最隐蔽的风险之一,是评测看起来不错,真实使用却频繁失手。很多时候不是模型完全没能力,而是评测集本身把系统保护得太好,导致真正困难的问题从来没有进入测试范围。
这页专门用反面案例训练评测集设计为什么会失败,以及这些失败会怎样误导团队判断系统成熟度。
系统在排盘、识别、定位类题目上得分很高,整体评测看起来稳定。
真实用户最常遇到的是解释型和决策型问题,而不是纯规则题。如果评测集过度偏向可自动判分的规则题,就会把系统真正最弱的环节藏起来。
规则题是底盘,不是整套评测的主体。
系统在高风险问题上给出了“比较稳”的文字回答,因此评估被判为合格。
高风险题真正应该测试的,不只是内容写得多稳,而是系统有没有要求补充信息、有没有触发人工复核、有没有明确转向现实专业系统。
流程动作也应纳入评测,不然只能测到语言外观。
模型在评测集上表现很好,稳定输出高质量回答。
如果评测集题型、措辞、结构过于接近模型已看过的数据,系统可能只是学会了套路,而不是学会了真正泛化。
评测集必须故意覆盖陌生表达、模糊问题和边界场景。
团队评测里几乎都是标准题和常规题,系统表现良好。
没有失败案例集,就无法检验系统在信息不足、知识冲突、提示污染和高风险输入下是否仍然稳定。
成熟评测一定要把“故意让系统出错”的题单独设计出来。
系统总分不错,看起来已达上线标准。
如果边界题、高风险题只占少量权重,就算这些题全错,也可能被大量简单题的高分掩盖。
高风险失误不应按普通题权重处理,必须单独设门槛。