首个高考志愿AI测评报告发布:以千问为测评对象,AI的能力边界首次被系统评估

高考志愿填报正在成为观察AI如何进入严肃决策场景的一扇窗口。

6月23日,友松实验室发布《高考志愿 AI 测评基准:以千问高考志愿填报Agent为案例的对比评估》。友松实验室是国内专注人工智能与教育决策研究的独立研究团队,长期关注大模型能力评估、教育场景中的 AI 应用,以及学生升学选择中的信息、认知与决策问题,研究成果被多所高校、科研机构采用。

此次报告以千问高考志愿填报Agent为测评对象,与53名资深高考志愿咨询师组成的人类基准进行对照,这些咨询师平均从业4.6年。测评围绕高考志愿基本事实与规则、模拟志愿填报、开放式咨询、志愿推荐报告四个模块展开,试图回答一个问题:当AI进入高风险教育决策时,它究竟能稳定提供什么价值。

与一般AI产品测评不同,这份报告关注的是AI能否在高风险教育决策中帮助学生和家庭获得更可靠的信息、更清晰的比较依据,以及更可复核的方案。高考志愿不是普通问答,因此测评的重点在于评测AI是否能识别硬约束、呈现依据、校准风险,并将复杂信息转化为可执行方案。

报告的核心结论是:在测评设定的任务范围内,千问高考Agent的多项表现已达到资深人类咨询师的水平,尤其在稳定性、精确性、结构化表达和响应效率方面呈现出优势。

具体数据显示,在44道客观题中,千问高考Agent全部答对,准确率为100%,人类咨询师平均正确率为89.3%;在模拟志愿填报中,千问方案包含6个可录取志愿,未出现显性偏好违背,并命中事后评估的最优结果,人类咨询师平均为5.3个可录取志愿;在开放式咨询中,评审专家在100次匿名对比中,有58次更倾向选择千问版本,“可直接向学生和家长展示的”可直接展示率为 56.0%,高于人类咨询师回答的 33.0%,认为其在专业路径拆解、风险提示和表达清晰度上更为稳定。

效率差距同样明显。53名咨询师完成44道客观题的中位耗时为30.4分钟,而千问高考Agent几乎可以秒级输出。报告中的随机鼓励实验也显示,被鼓励使用AI辅助的咨询师,平均正确率略高于控制组,平均耗时则从36.8分钟下降到26.9分钟。虽然受样本量限制,这一结果也给出一个清晰的方向:AI短期内最明确的价值不是替代人,而是把查证、复核与初筛的边际成本降下来。

报告设置的10个开放式咨询场景,更贴近真实家庭的复杂处境,包括信息不足时是否直接推荐学校、如何回应“女生不适合工科”、预算有限但想去大城市等问题。10位专家采用双盲方式进行评分和两两比较,结果显示,千问Agent在100场两两对决中被判定更优58场,可直接展示率高于人类咨询师,在表达与咨询风格、风险意识与不确定性校准、关键信息澄清等维度表现突出。

不过,这种结构化的优势并不等同于对人类处境的理解。在“只想选未来收入最高的专业”这一问题上,千问给出了较多薪酬和岗位判断,却未能充分说明适用边界;在涉及性别偏见、预算冲突、家庭协商等问题上,人类咨询师对真实家庭处境的体感理解,仍然是AI难以完全替代的部分。

这份报告所呈现的,不是一份简单的AI与人类的胜负表,而是高考志愿服务中一种新的分工的可能性。对学生和家庭而言,AI可以先把分数、位次、选科、专业偏好、学费约束和风险提示整理成一份清晰的底稿;对咨询师而言,AI可以释放重复查证时间,让人把更多精力放在价值判断、家庭沟通和个性化调整上。当信息差与复核成本被显著压低之后,更多家庭有望站在一个更高、更透明、也更可复核的起点上,作出属于自己的选择。

网络编辑:kuangyx

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}