LangSmith 的评估功能。您需要首先定义一个评估函数来评判智能体的结果,例如最终输出或执行轨迹。根据您的评估技术,这可能涉及也可能不涉及参考输出:
AgentEvals 包中预置的评估器:
创建评估器
评估智能体性能的一种常见方法是将其执行轨迹(调用工具的顺序)与参考轨迹进行比较:LLM 作为评判器
您可以使用 LLM 作为评判器的评估器,它利用 LLM 将轨迹与参考输出进行比较并给出分数:运行评估器
要运行评估器,您首先需要创建一个 LangSmith 数据集。要使用预置的 AgentEvals 评估器,您需要的数据集需符合以下模式:- input:
{"messages": [...]}用于调用智能体的输入消息。 - output:
{"messages": [...]}智能体输出中期望的消息历史记录。对于轨迹评估,您可以选择只保留助手消息。