tianjiyao-wiki

AI命理效果评估

AI 模块最容易被问到的问题之一，不是模型怎么做，而是它到底有没有效果。很多 AI 命理产品会直接展示结果，却很少认真说明：它评估的是什么、数据从哪里来、准确性是什么意思、哪些结果可以验证、哪些只能做结构辅助。

如果没有评估框架，所谓“AI 命理很准”往往只是一句营销话术。这页专门讨论 AI 命理该如何做效果验证。

一、为什么 AI 命理必须谈评估

因为 AI 命理并不是单一任务。它至少包含几类不同能力：

排盘和规则计算是否正确
术语、结构和古籍文本是否理解正确
输出解释是否符合传统逻辑
对现实问题的建议是否稳定、清晰、可复核

这些能力不能只用一个“准不准”来概括。

二、先分清 AI 命理在评估什么

1. 规则型任务

例如：排盘、干支换算、十神识别、宫位定位。这类任务更适合做明确正确率评估。

2. 分类型任务

例如：格局判断、主题归类、古籍句段分类。这类任务适合用准确率、召回率、F1 分数等指标。

3. 解释型任务

例如：命盘解读、问题回答、生成报告。这类任务不能只靠自动分数，更需要人工评审与知识约束检查。

三、AI 命理评估最常见的四层指标

1. 计算正确率

基础排盘和结构换算必须先正确，否则后面所有输出都失去意义。

2. 知识一致性

输出的结论是否符合训练时设定的规则、术语与经典框架。

3. 解释稳定性

面对类似输入，系统是否会给出大幅自相矛盾的结论。

4. 用户可用性

输出是否清晰、有边界、能帮助用户理解，而不是制造神秘感和依赖感。

四、数据集从哪里来

做 AI 命理评估，数据通常来自三类来源：

规则生成数据：适合验证排盘、干支、宫位和基础计算
经典文本数据：适合验证术语理解、文本解析和知识抽取
人工标注案例：适合验证解释质量、分类结果和问答能力

真正难的地方往往在第三类，因为命理任务里的高质量标注成本很高。

五、为什么“准确率”常常不够用

因为很多命理问题不是标准选择题，而是多层次解释任务。

例如同一个问题里，系统可能：

排盘正确
术语解释基本对
但现实建议过于绝对

这时候如果只看技术指标，会漏掉真正的使用风险。

六、更稳的评估方式是什么

1. 自动评测 + 人工复核

规则型部分交给自动评测，解释型部分加入人工评审。

2. 分任务评估

不要把排盘、问答、文本总结、风险提示混成一个总分。

3. 场景化测试

例如分别测试：

八字结构问答
紫微宫位解释
六爻短期事件问答
跨体系综合问答

4. 边界测试

专门测试模型在不确定、信息不足或高风险问题下，是否会过度肯定地输出。

七、AI 命理最值得监控的风险指标

过度自信输出
编造概念或断语
把不确定问题说成确定结论
忽略医疗、法律、财务等现实边界

八、如果想做更可信的 AI 命理系统

建议至少做到：

规则计算可回归测试
核心术语和知识图谱有统一约束
高风险回答加边界提示
关键输出可人工抽检和复核