如何构建和评估测试点

让我们先讲一个 38 年前的故事

1987 年 2 月 23 日，世界标准时 7 时 35 分。

日本地下深处的神冈中微子探测器，在 13 秒之内，记录到了 11 个中微子事件。

仅仅 6 秒之后，美国伊利湖边盐矿地下 600 米的 IMB 探测器，记录到了 8 个中微子事件。

苏联高加索山下的巴克桑探测器，也在同一时段记录到了 5 个中微子事件。

三个探测器，三个不同国家——在同一分钟之内，各自独立地看到了同一阵中微子爆发。

几个小时之后，智利天文台的天文学家在底片上看到了大麦哲伦星云里出现了一颗“凭空而至”的明亮新星。它在 16.8 万光年之外。

中微子比可见光早了大约两到三个小时到达——它从恒星核心直接穿出，而光要等爆发的冲击波传到恒星表面才能逃逸。两种本质完全不同的信使，各自带着不同层面的信息，在地球上汇合。

这一刻被许多教科书和天文馆视为多信使天文学的开端——人类第一次用多个本质不同的独立通道，交叉验证同一件事。

出题这件事，也需要多信使

老办法只有一个信使：出题人凭经验造数据。这一个信使非常容易被骗——出题人没有上帝视角，他不知道自己漏掉了什么。

而用 AI 来出题，情况更危险。如果让 AI 写代码、又让 AI 自己来判数据强不强，等于让一个会幻觉的人当自己的裁判。AI 的盲区会被自己背书，一个信使都没有。

每一道孩子在 GESP.AI 上看到的题，都需要通过多个完全独立的通道交叉验证，才算“够格”放进题库。

这些独立通道里，有的是经过 15 年工业验证的开源工具，有的是不同公司的 AI 模型互相印证，有的是真实的判题沙箱——它们用完全不同的机制，共同回答同一个问题：这道题数据够强吗？

任何一个通道单独说“数据强”都不算数。但当多个独立通道全部说“数据强”，这件事就变成了一个能被证明的事实，而不再是出题人的口头担保。

测试点不是越多越好，是越“可证”越好。

GESP.AI 想做的事很简单——让家长在我们的平台上看到的每一个“通过”，都是真的通过。

孩子练的每一道题，都是真的在练。

三道关

一道题怎么算“够格”？
三个独立维度全过才算

下面是 GESP.AI 给一道题判定“够格”的三个独立维度，以及最终落档到三档评级的方式。

一道题“够格”的三个维度

三个独立可验证的维度——任一维度不过，整道题就停在评级门外。

维度 1

准确性

这道题的标准答案，真的对吗？

让 Anthropic 和 OpenAI 两家公司的 AI 各写一份独立解答，在 1000 组随机/边界/极值数据上比对。任一组答案不一致，就说明至少一个错了——这道题直接淘汰。

维度 2

覆盖率

题目声明的数据范围，真的都测到了吗？

题面说 n 最大可以到 20 万，那就必须真的有测试点跑到 20 万附近，而不是全卡在 1000 凑数。每个测试点都用 testlib 校验器（Codeforces 同款工业标准）双侧严格校验合法性，确保不混进越界数据。

维度 3

区分度

这套数据能把“真懂”和“骗分”分开吗？

让 AI 故意写 3 份典型错解，每份带一个“预期会错在哪”的标签。把它们和测试数据真打一遍——如果错解都能蒙混过关，说明数据太弱。

三档评级

三个维度的检验结果，最终汇成一道题的等级。仅 Tier 2 的题才会进入孩子能看到的题库。

Tier 0

准确性未通过——标准答案本身有问题。

✗ 不进入题库

Tier 1

准确性通过，覆盖率或区分度任一未通过。

✗ 不进入题库

Tier 2

三个维度全部通过。

✓ 进入题库

想看看一道“够格”的题长什么样？

免费体验一道真题

让我们先讲一个 38 年前的故事

出题这件事，也需要多信使

一道题怎么算“够格”？三个独立维度全过才算

一道题“够格”的三个维度

准确性

覆盖率

区分度

三档评级

一道题怎么算“够格”？
三个独立维度全过才算