AI 模块最容易被问到的问题之一,不是模型怎么做,而是它到底有没有效果。很多 AI 命理产品会直接展示结果,却很少认真说明:它评估的是什么、数据从哪里来、准确性是什么意思、哪些结果可以验证、哪些只能做结构辅助。
如果没有评估框架,所谓“AI 命理很准”往往只是一句营销话术。这页专门讨论 AI 命理该如何做效果验证。
因为 AI 命理并不是单一任务。它至少包含几类不同能力:
这些能力不能只用一个“准不准”来概括。
例如:排盘、干支换算、十神识别、宫位定位。这类任务更适合做明确正确率评估。
例如:格局判断、主题归类、古籍句段分类。这类任务适合用准确率、召回率、F1 分数等指标。
例如:命盘解读、问题回答、生成报告。这类任务不能只靠自动分数,更需要人工评审与知识约束检查。
基础排盘和结构换算必须先正确,否则后面所有输出都失去意义。
输出的结论是否符合训练时设定的规则、术语与经典框架。
面对类似输入,系统是否会给出大幅自相矛盾的结论。
输出是否清晰、有边界、能帮助用户理解,而不是制造神秘感和依赖感。
做 AI 命理评估,数据通常来自三类来源:
真正难的地方往往在第三类,因为命理任务里的高质量标注成本很高。
因为很多命理问题不是标准选择题,而是多层次解释任务。
例如同一个问题里,系统可能:
这时候如果只看技术指标,会漏掉真正的使用风险。
规则型部分交给自动评测,解释型部分加入人工评审。
不要把排盘、问答、文本总结、风险提示混成一个总分。
例如分别测试:
专门测试模型在不确定、信息不足或高风险问题下,是否会过度肯定地输出。
建议至少做到: