LLM评估指南:如何评测大模型输出质量

“这个模型效果怎么样?”——这是每个 AI 应用上线前都要回答的问题。但大模型的输出不像传统软件有明确的对错,一段文案“好不好”、一个回答“准不准”,往往见仁见智。没有评估就没有改进:你不知道改了 Prompt 或换了模型到底是变好还是变坏,就只能靠感觉拍脑袋。

本文系统讲解 LLM 评估的方法论:从评估指标、人工评估、自动评估(LLM-as-Judge)、到 A/B 测试和评估框架,帮你建立科学的模型评测体系。

一、为什么 LLM 评估这么难

传统机器学习评估相对简单:分类任务看准确率、F1,回归看 MSE。但 LLM 输出是开放文本,难在三点:

所以 LLM 评估不是找一个万能指标,而是建立一套多维度的评估体系

二、评估指标体系

根据任务类型,关注不同维度:

任务类型核心指标
问答/知识准确性、事实性、完整性、可溯源
摘要覆盖度、简洁性、忠实度(无幻觉)
翻译BLEU、流畅性、语义保真
代码生成功能正确性(pass@k)、代码质量
对话相关性、连贯性、有用性、安全性
RAG检索召回率、答案忠实度、引用准确性

对于有标准答案的任务,可用客观指标:

但大多数开放生成任务没有标准答案,需要主观评估。

三、人工评估:金标准

人工评估至今仍是 LLM 评估的“金标准”,因为人类判断最贴近真实用户体验。流程是:准备评估集 → 定义评分标准(rubric)→ 多个标注员打分 → 汇总统计。

关键要点:

  1. 定义清晰的评分标准:不能只说“打 1-5 分”,要明确每个分数对应什么。比如“3 分=基本回答了问题但有瑕疵,4 分=准确完整且表述清晰”。
  2. 多人交叉标注:每条至少 3 人打分,取平均,用一致性系数(如 Cohen's Kappa)衡量标注质量。
  3. 盲评:标注员不知道输出来自哪个模型,避免偏见。
  4. 成对比较:让标注员在两个模型输出里选更好的,比绝对打分更稳定。这是 Chatbot Arena 的核心方法。

人工评估的缺点是贵且慢,适合做小规模基准测试,不适合每次迭代都跑。

四、LLM-as-Judge:用模型评模型

2026 年最流行的自动评估方法是用一个强模型(如 GPT-5.5、Claude Opus 4.8)给其他模型的输出打分。这叫 LLM-as-Judge,成本低、速度快、可大规模跑。

from openai import OpenAI
import json

client = OpenAI(api_key="sk-your-enlyai-key", base_url="https://enlyai.com/v1")

def llm_judge(question, answer, criteria="准确性、完整性、表述清晰度"):
    prompt = f"""你是一个严格的评估专家。请对以下回答打分。

问题:{question}
回答:{answer}

评估维度:{criteria}
每项打 1-5 分,并说明理由。最后输出 JSON:
{{"accuracy": 分数, "completeness": 分数, "clarity": 分数, "reason": "简短理由"}}
只输出 JSON。"""

    r = client.chat.completions.create(
        model="gpt-5.5",  # 用强模型做裁判
        messages=[{"role": "user", "content": prompt}],
        temperature=0,
        response_format={"type": "json_object"}
    )
    return json.loads(r.choices[0].message.content)

result = llm_judge("什么是 RAG?", "RAG 是检索增强生成...")
print(result)

提示:通过 EnlyAI 统一接入,做 LLM-as-Judge 时可以方便地用 GPT-5.5、Claude Opus 4.8 等强模型当裁判,一个 key 调用所有模型,评估代码与业务代码共用一套接入。

LLM-as-Judge 的注意事项:

五、建立评估集(Eval Set)

评估的基础是一个好的评估集:一组有代表性的“输入-期望输出”样本。评估集的质量直接决定评估结果是否可信。

构建评估集的原则:

  1. 覆盖真实场景:从真实用户问题里抽样,别自己拍脑袋编。
  2. 包含边界 case:故意放些刁钻问题、模糊问题、有害问题,测鲁棒性。
  3. 规模适中:100-500 条够用,太多评估成本高,太少不具代表性。
  4. 版本化管理:评估集要进 Git,每次迭代用同一套,才能横向对比。
  5. 分级标注:标注难度等级,便于分析模型在不同难度上的表现。

六、A/B 测试:线上真实评估

离线评估再好,也不如线上真实用户反馈。A/B 测试把用户随机分到不同模型/Prompt 版本,比较真实业务指标。

import random

def ab_route(user_id):
    # 按 user_id 哈希分流,保证同一用户始终在同一组
    group = "A" if hash(user_id) % 2 == 0 else "B"
    model = "gpt-5.5" if group == "A" else "claude-opus-4-8"
    return group, model

# 记录每组的关键指标:满意度(点赞/点踩)、停留时长、复访率

线上指标比离线分数更接近真实价值:用户点赞率、回答被采纳率、会话长度、复访率。注意要跑足够长时间(通常 1-2 周)达到统计显著。

七、评估框架与自动化

手动跑评估不可持续,需要自动化框架。开源方案有 Ragas(专攻 RAG 评估)、Promptfoo(Prompt 对比测试)、DeepEval(单元测试式评估)。它们的思路一致:定义测试用例 → 跑模型 → 自动打分 → 生成报告。

# Promptfoo 风格的评估配置概念示例
# eval.yaml
prompts:
  - "请回答:{{question}}"
providers:
  - id: openai:gpt-5.5
  - id: openai:claude-opus-4-8
tests:
  - vars: {question: "什么是 RAG?"}
    assert:
      - type: contains
        value: "检索"
      - type: llm-rubric
        value: "回答准确且完整"
  - vars: {question: "1+1=?"}
    assert:
      - type: equals
        value: "2"

把评估集成进 CI/CD:每次改 Prompt 或换模型,自动跑评估集,分数下降就阻断发布。这样模型迭代才不会“盲飞”。

八、RAG 系统的专项评估

RAG 系统要分别评估检索和生成两个环节:

Ragas 框架对这些维度有成熟的自动评估指标,适合 RAG 系统持续监控。

九、用 EnlyAI 辅助评估

评估过程需要大量模型调用:LLM-as-Judge、生成对比、A/B 分流。通过 EnlyAI 统一接入,一个 key 跑通整个评估流程

client = OpenAI(api_key="sk-your-enlyai-key", base_url="https://enlyai.com/v1")

# 对比多个模型在同一评估集上的表现
def benchmark(eval_set, models=["gpt-5.5", "claude-opus-4-8", "gemini-3.5-pro"]):
    results = {}
    for model in models:
        scores = []
        for item in eval_set:
            answer = client.chat.completions.create(
                model=model,
                messages=[{"role": "user", "content": item["question"]}]
            ).choices[0].message.content
            judge = llm_judge(item["question"], answer)
            scores.append(judge["accuracy"])
        results[model] = sum(scores) / len(scores)
    return results

统一接入让模型对比、裁判评估、A/B 分流共用一套密钥和账单,评估基础设施大大简化。

总结

LLM 评估不是一次性工作,而是贯穿模型选型、Prompt 迭代、上线监控全流程的持续工程。核心是:建好评估集、选对评估方法(人工金标准 + LLM-as-Judge 自动化 + 线上 A/B)、把评估集成进迭代流程。没有评估的改进都是盲目的,有了评估才能让模型迭代有据可依。

而评估所需的模型调用,交给 EnlyAI 统一接入,能让你专注于评估方法论本身,而不是在多平台密钥管理上分心。

想科学评估和对比多个大模型?

EnlyAI 提供 OpenAI 兼容的统一接口,一个 key 调用 GPT-5.5、Claude Opus 4.8、Gemini 3.5 Pro,方便做 LLM-as-Judge、模型对比与 A/B 测试,注册即送免费额度。

立即注册 EnlyAI →