新闻资讯

Claude给人类打分:AI Fluency评分系统全解析

角色反转:从人类给AI打分到AI给人类打分

过去我们给AI跑分,今天Claude开始反手给人类打分。Anthropic正在为Claude灰度测试一项名为"AI Fluency"(AI流利度)的评分功能,它会通过11项指标分析用户与AI的历史对话,判断用户使用AI的水平高低。在AI眼里,你是高手还是菜鸟?现在有了量化答案。

已有网友测出了7.5分(满分11分)的成绩单。这个分数意味着什么?根据Anthropic的说明,7.5分属于"优秀"级别,表明该用户已经建立了系统化的AI协作习惯,能够有效利用AI完成复杂任务。而大多数用户目前可能还在3到5分的"入门"到"进阶"阶段徘徊。

11项评分指标详解

  • 提示词精确度:用户是否能够清晰、具体地表达需求,而非使用模糊的"帮我写个东西"
  • 迭代与精炼能力:是否在首次结果基础上持续追问和优化,而非接受AI的第一次输出
  • 上下文管理:是否善于利用长对话上下文,让AI理解任务的演进脉络
  • 任务分解:是否将复杂任务拆解为可执行的子任务逐步推进
  • 多模型协作:是否根据不同任务特点选择最合适的AI工具
  • 结果验证:是否对AI输出进行独立验证,而非盲目信任
  • 创意引导:是否能够引导AI产生非模板化的创意输出
  • 效率意识:是否在保证质量的前提下追求最少交互轮次
  • 反馈质量:给AI的纠错反馈是否精准有效
  • 工具整合:是否将AI融入更大的工作流而非孤立使用
  • 元认知:是否理解AI的能力边界,知道什么该问、什么不该问

研究基础:近万份匿名对话的深度分析

AI Fluency评分功能的开发基于Anthropic联合学者对近万份匿名对话的研究。研究发现,AI使用能力的高低与最终产出质量之间存在强相关性,但与用户的技术背景相关性较弱——也就是说,非技术人员完全可以通过提升AI流利度来获得与技术人员相当的产出质量。

这项研究还揭示了一个有趣的发现:迭代与精炼能力是所有指标中与最终产出质量相关性最强的。善于在AI首次输出基础上持续优化的人,其最终成果质量平均比"一次成型"型用户高出47%。这意味着,会"追问"比会"提问"更重要。

争议与隐忧:谁来评判评判者

AI Fluency功能也引发了不小的争议。首先是隐私问题:分析用户对话模式意味着Anthropic对用户数据的使用深度又进了一层。其次是标准化问题:谁来定义"好的AI使用方式"?Anthropic的11项指标是否具有普适性?对于创意工作者来说,"效率意识"真的是最重要的吗?

更深层的问题在于,AI评价人类的能力一旦建立,其应用场景可能远不止"帮助用户提升"。在招聘、绩效考核等场景中,"AI流利度"是否会成为新的筛选标准?ClickUp裁员22%同时百万年薪招AI原生人才的新闻已经暗示了这一趋势。

不过从积极面看,AI Fluency评分的推出也标志着AI行业正在从"比谁模型更强"走向"比谁更会用模型"。当模型的性能差距逐渐缩小时,使用能力将成为决定产出质量的关键变量。这或许才是AI民主化的真正含义——不是人人都能训练模型,而是人人都能高效使用模型。