Skip to main content
要评估智能体的性能,您可以使用 LangSmith评估功能。您需要首先定义一个评估函数来评判智能体的结果,例如最终输出或执行轨迹。根据您的评估技术,这可能涉及也可能不涉及参考输出:
def evaluator(*, outputs: dict, reference_outputs: dict):
    # compare agent outputs against reference outputs
    output_messages = outputs["messages"]
    reference_messages = reference_outputs["messages"]
    score = compare_messages(output_messages, reference_messages)
    return {"key": "evaluator_score", "score": score}
作为入门,您可以使用 AgentEvals 包中预置的评估器:
pip install -U agentevals

创建评估器

评估智能体性能的一种常见方法是将其执行轨迹(调用工具的顺序)与参考轨迹进行比较:
import json
from agentevals.trajectory.match import create_trajectory_match_evaluator  

outputs = [
    {
        "role": "assistant",
        "tool_calls": [
            {
                "function": {
                    "name": "get_weather",
                    "arguments": json.dumps({"city": "san francisco"}),
                }
            },
            {
                "function": {
                    "name": "get_directions",
                    "arguments": json.dumps({"destination": "presidio"}),
                }
            }
        ],
    }
]
reference_outputs = [
    {
        "role": "assistant",
        "tool_calls": [
            {
                "function": {
                    "name": "get_weather",
                    "arguments": json.dumps({"city": "san francisco"}),
                }
            },
        ],
    }
]

# Create the evaluator
evaluator = create_trajectory_match_evaluator(
    trajectory_match_mode="superset",    
)

# Run the evaluator
result = evaluator(
    outputs=outputs, reference_outputs=reference_outputs
)
  1. 指定轨迹比较的方式。superset 模式会在输出轨迹是参考轨迹的超集时认为其有效。其他选项包括:strictunorderedsubset
作为下一步,了解更多关于如何自定义轨迹匹配评估器的信息。

LLM 作为评判器

您可以使用 LLM 作为评判器的评估器,它利用 LLM 将轨迹与参考输出进行比较并给出分数:
import json
from agentevals.trajectory.llm import (
    create_trajectory_llm_as_judge,  
    TRAJECTORY_ACCURACY_PROMPT_WITH_REFERENCE
)

evaluator = create_trajectory_llm_as_judge(
    prompt=TRAJECTORY_ACCURACY_PROMPT_WITH_REFERENCE,
    model="openai:o3-mini"
)

运行评估器

要运行评估器,您首先需要创建一个 LangSmith 数据集。要使用预置的 AgentEvals 评估器,您需要的数据集需符合以下模式:
  • input: {"messages": [...]} 用于调用智能体的输入消息。
  • output: {"messages": [...]} 智能体输出中期望的消息历史记录。对于轨迹评估,您可以选择只保留助手消息。
from langsmith import Client
from langchain.agents import create_agent
from agentevals.trajectory.match import create_trajectory_match_evaluator


client = Client()
agent = create_agent(...)
evaluator = create_trajectory_match_evaluator(...)

experiment_results = client.evaluate(
    lambda inputs: agent.invoke(inputs),
    # replace with your dataset name
    data="<Name of your dataset>",
    evaluators=[evaluator]
)

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.