【AI大模型应用开发】【RAG评估】2. 实战:LangChain x RAGAs x LangSmith联合评估RAG应用,兼看如何借助LangSmith有效学习LangChain

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 【AI大模型应用开发】【RAG评估】2. 实战:LangChain x RAGAs x LangSmith联合评估RAG应用,兼看如何借助LangSmith有效学习LangChain
  • 大家好,我是同学小张,日常分享AI知识和实战案例
  • 欢迎 点赞 + 关注 👏,持续学习持续干货输出
  • 一起交流💬,一起进步💪。
  • 微信公众号也可搜【同学小张】 🙏

本站文章一览:


上篇文章【AI大模型应用开发】【RAG评估】1. 通俗易懂:深度理解RAGAS评估方法的原理与应用 我们详细讲解了RAGAs的原理和实现方式,今天我们完整的实战一遍。将RAGAs集成在LangChain的RAG应用中,同时打通LangSmith平台,使评估过程可视化

实践完之后,通过LangSmith平台,还会有意外收获:带你看看如何利用LangSmith平台来有效学习LangChain的使用和相关知识。

0. 前置 - 环境安装

  • 安装 langchain 和 ragas,注意安装ragas的 0.0.22 版本
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U langchain
pip install ragas==0.0.22
  • 如果安装了高版本的 ragas,例如 >= 0.1 版本,运行本文的代码会报错:

ModuleNotFoundError: No module named ‘ragas.langchain’

原因是现在 langchain 还没有对 ragas 0.1 及以后版本作兼容(截止到 2024-02-25)。目前有两个选择:

(1)不使用 langchain 来实现你的功能,也就不用 langchain 内的 ragas,直接使用原生的 ragas。

(2)使用 ragas 的 0.0.22 版本

ragas 0.1 does not yet have this feature. We are working on it, for now you have two options

  • Use ragas natively w/o the chain, in this way, you get all the new capabilities of 0.1 version
  • reinstall and use 0.0.22

1. 创建RAG

0.1 文本加载

这里使用 langchain 中的 WebBaseLoader 来加载 html 数据:loader = WebBaseLoader("https://baike.baidu.com/item/%E7%BA%BD%E7%BA%A6/6230")

WebBaseLoader是LangChain中集成的用于加载网页中文字的类,详细使用方式可参考这里

from langchain_community.document_loaders import WebBaseLoader
loader = WebBaseLoader("https://baike.baidu.com/item/%E7%BA%BD%E7%BA%A6/6230")
loader.requests_kwargs = {'verify':False}
data = loader.load()
print(data)

将加载到的html数据打印出来看下,如下:

0.2 创建向量索引

0.2.1 代码

from langchain.indexes import VectorstoreIndexCreator
index = VectorstoreIndexCreator().from_loaders([loader])

0.2.2 VectorstoreIndexCreator 介绍

VectorstoreIndexCreator 是一个用于创建索引的组件,用于查询文本文档。它将文档分割成更小的块,为每个文档生成嵌入(即数字表示),并将文档及其嵌入存储在向量库中,然后可以对其进行查询以检索相关文档。

回顾我们创建索引的过程:加载文档 —> 分割文本 —> 生成文本向量,存储。参考之前的文章:【AI大模型应用开发】【LangChain系列】4. 从Chain到LCEL:探索和实战LangChain的巧妙设计

这里利用 VectorstoreIndexCreator 一行代码就搞定了。所以,VectorstoreIndexCreator就是 LangChain 对以上过程的高层封装。看下它的源码:

  • from_loaders:通过传入的Loader加载文本数据,然后调用 from_documents
  • from_documents:切分文本,生成文本向量并存储

0.3 创建QA链

0.3.1 代码

from langchain.chains import RetrievalQA
from langchain_community.chat_models import ChatOpenAI
llm = ChatOpenAI()
qa_chain = RetrievalQA.from_chain_type(
    llm, retriever=index.vectorstore.as_retriever(), return_source_documents=True
)

0.3.2 RetrievalQA 介绍

参考文档:https://python.langchain.com/docs/modules/chains/#legacy-chains

RetrievalQA 是 LangChain对问答类Chain的高层封装,它内部首先做检索步骤,然后将检索到的文档给到 LLM 生成结果。

0.4 提问,运行QA链,得到RAG结果

question = "纽约市的名字是怎么得来的?"
result = qa_chain({"query": question})
# result["result"]
print("========= chain result ==========")
print(result)

这里关注下返回结果的结构,其中的key值为:

  • query
  • result
  • source_documents

这个key值很关键,后面的RAGAs内部就是去取这些Key值里面的内容,错一个字符都会提取不到数据,报错。

1. 加入评估

context_recall 指标需要给定参考结果,放到key值为"ground_truths"的地方。没有"ground_truths",该指标的评估会报错。

主要使用 RagasEvaluatorChain 链。

result['ground_truths'] = "纽约市的名字“纽约”来源于荷兰战败后将新阿姆斯特丹割让给英国的事件。"
from ragas.metrics import faithfulness, answer_relevancy, context_relevancy, context_recall
from ragas.langchain.evalchain import RagasEvaluatorChain
# make eval chains
eval_chains = {
    m.name: RagasEvaluatorChain(metric=m) 
    for m in [faithfulness, answer_relevancy, context_relevancy, context_recall]
}
# evaluate
for name, eval_chain in eval_chains.items():
    score_name = f"{name}_score"
    print(f"{score_name}: {eval_chain(result)[score_name]}")

运行结果:

2. 接入LangSmith

LangSmith平台的具体使用方法,可以参考前面的文章:

接入 LangSmith,只需在代码最前面加入以下代码。

import os
os.environ["LANGCHAIN_API_KEY"] = "ls__xxxxxx"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_TRACING_V2"]="true"
os.environ["LANGCHAIN_PROJECT"]="test-ragas"

运行程序之后,可以在LangSmith平台看到当前程序的运行过程。从下图可以看到一共运行了5个链,一个RetrievalQA链,四个RagasEvaluatorChain评估链(因为使用了四个测试指标),点击相应链,可以看到详细的运行过程日志和运行统计。

3. 完整代码

import os
os.environ["LANGCHAIN_API_KEY"] = "ls__xxxxxx"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_TRACING_V2"]="true"
os.environ["LANGCHAIN_PROJECT"]="test-ragas"
from langchain_community.document_loaders import WebBaseLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.chains import RetrievalQA
from langchain_community.chat_models import ChatOpenAI
# load the Wikipedia page and create index
loader = WebBaseLoader("https://baike.baidu.com/item/%E7%BA%BD%E7%BA%A6/6230")
loader.requests_kwargs = {'verify':False}
index = VectorstoreIndexCreator().from_loaders([loader])
# create the QA chain
llm = ChatOpenAI()
qa_chain = RetrievalQA.from_chain_type(
    llm, retriever=index.vectorstore.as_retriever(), return_source_documents=True
)
# # testing it out
question = "纽约市的名字是怎么得来的?"
result = qa_chain({"query": question})
# result["result"]
print("========= chain result ==========")
print(result)
result['ground_truths'] = "纽约市的名字“纽约”来源于荷兰战败后将新阿姆斯特丹割让给英国的事件。"
from ragas.metrics import faithfulness, answer_relevancy, context_relevancy, context_recall
from ragas.langchain.evalchain import RagasEvaluatorChain
# make eval chains
eval_chains = {
    m.name: RagasEvaluatorChain(metric=m) 
    for m in [faithfulness, answer_relevancy, context_relevancy, context_recall]
}
# evaluate
for name, eval_chain in eval_chains.items():
    score_name = f"{name}_score"
    print(f"{score_name}: {eval_chain(result)[score_name]}")

4. 使用LangSmith中的测试数据集进行测试

除了以上在运行过程中实时获取评估结果,我们还可以针对某些数据集进行集中评估。下面是操作方法。

LangSmith平台测试数据集的具体使用方法,可以参考前面的文章:

4.1 创建及数据集

首先可以创建一个数据集。

  • create_dataset:用来在LangSmith平台创建数据集
  • read_dataset:用来读取LangSmith平台的数据集
# 测试数据集
eval_questions = [
    "纽约市的名字是怎么得来的?",
]
eval_answers = [
    "纽约市的名字“纽约”来源于荷兰战败后将新阿姆斯特丹割让给英国的事件。",
]
examples = [{"query": q, "ground_truths": [eval_answers[i]]} for i, q in enumerate(eval_questions)]
# dataset creation
from langsmith import Client
from langsmith.utils import LangSmithError
client = Client()
dataset_name = "NYC test"
try:
    # check if dataset exists
    dataset = client.read_dataset(dataset_name=dataset_name)
    print("using existing dataset: ", dataset.name)
except LangSmithError:
    # if not create a new one with the generated query examples
    dataset = client.create_dataset(
        dataset_name=dataset_name, description="NYC test dataset"
    )
    for e in examples:
        client.create_example(
            inputs={"query": e["query"]},
            outputs={"ground_truths": e["ground_truths"]},
            dataset_id=dataset.id,
        )
    print("Created a new dataset: ", dataset.name)

4.2 使用数据集进行评估

(1)首先定义评估函数:RunEvalConfig,这里填入的是四个评估指标链

(2)run_on_dataset,执行测试

from langchain.smith import RunEvalConfig, run_on_dataset
evaluation_config = RunEvalConfig(
    custom_evaluators=[
        faithfulness_chain,
        answer_rel_chain,
        context_rel_chain,
        context_recall_chain,
    ],
    prediction_key="result",
)
result = run_on_dataset(
    client,
    dataset_name,
    qa_chain,
    evaluation=evaluation_config,
    input_mapper=lambda x: x,
)

4.3 完整代码

import os
os.environ["LANGCHAIN_TRACING_V2"]="true"
os.environ["LANGCHAIN_PROJECT"]="test-ragas2"
from langchain_community.document_loaders import WebBaseLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.chains import RetrievalQA
from langchain_community.chat_models import ChatOpenAI
# load the Wikipedia page and create index
loader = WebBaseLoader("https://baike.baidu.com/item/%E7%BA%BD%E7%BA%A6/6230")
loader.requests_kwargs = {'verify':False}
index = VectorstoreIndexCreator().from_loaders([loader])
# create the QA chain
llm = ChatOpenAI()
qa_chain = RetrievalQA.from_chain_type(
    llm, retriever=index.vectorstore.as_retriever(), return_source_documents=True
)
from ragas.metrics import faithfulness, answer_relevancy, context_relevancy, context_recall
from ragas.langchain.evalchain import RagasEvaluatorChain
# create evaluation chains
faithfulness_chain = RagasEvaluatorChain(metric=faithfulness)
answer_rel_chain = RagasEvaluatorChain(metric=answer_relevancy)
context_rel_chain = RagasEvaluatorChain(metric=context_relevancy)
context_recall_chain = RagasEvaluatorChain(metric=context_recall)
# 测试数据集
eval_questions = [
    "纽约市的名字是怎么得来的?",
]
eval_answers = [
    "纽约市的名字“纽约”来源于荷兰战败后将新阿姆斯特丹割让给英国的事件。",
]
examples = [{"query": q, "ground_truths": [eval_answers[i]]} for i, q in enumerate(eval_questions)]
# dataset creation
from langsmith import Client
from langsmith.utils import LangSmithError
client = Client()
dataset_name = "ragas test data"
try:
    # check if dataset exists
    dataset = client.read_dataset(dataset_name=dataset_name)
    print("using existing dataset: ", dataset.name)
except LangSmithError:
    # if not create a new one with the generated query examples
    dataset = client.create_dataset(
        dataset_name=dataset_name, description="NYC test dataset"
    )
    for e in examples:
        client.create_example(
            inputs={"query": e["query"]},
            outputs={"ground_truths": e["ground_truths"]},
            dataset_id=dataset.id,
        )
    print("Created a new dataset: ", dataset.name)
    
from langchain.smith import RunEvalConfig, run_on_dataset
evaluation_config = RunEvalConfig(
    custom_evaluators=[
        faithfulness_chain,
        answer_rel_chain,
        context_rel_chain,
        context_recall_chain,
    ],
    prediction_key="result",
)
result = run_on_dataset(
    client,
    dataset_name,
    qa_chain,
    evaluation=evaluation_config,
    input_mapper=lambda x: x,
)

注意:这里与前面方法的区别在于,利用测试数据集来测试时,不用再自己调用大模型获取result了,也不用自己再一个一个调用评估链了,也就是下面的代码不用了,这些在run_on_dataset就帮你做了。

# # testing it out
question = "纽约市的名字是怎么得来的?"
result = qa_chain({"query": question})
# result["result"]
print("========= chain result ==========")
print(result)
result['ground_truths'] = "纽约市的名字“纽约”来源于荷兰战败后将新阿姆斯特丹割让给英国的事件。"
# evaluate
for name, eval_chain in eval_chains.items():
    score_name = f"{name}_score"
    print(f"{score_name}: {eval_chain(result)[score_name]}")

5. LangSmith助力LangChain学习

这里是一点意外收获,跟大家分享一下。

在使用 LangSmith 看运行过程的时候,发现它将 RetrievalQA 的详细过程列出来了:

  • 首先是使用了Retriever
  • 然后是使用了StuffDocumentsChain下的LLMChainLLMChain下调用了LLM

而这个过程,在我们的代码中,仅一行:result = qa_chain({"query": question})。对于像我一样不知道 RetrievalQA 工作机制的人来说,从上面这个过程可以学习到一些内容,不用看源码就知道它里面首先自己进行了检索,然后内部自己调用了LLM。

这只是一个简单的感受,就是 LangSmith 的 Traces 功能有时候能帮助我们更好地了解LangChain内部的工作机制和工作步骤。

6. 遗留问题

我的LangSmith平台上关于评估链的信息是这样的:

它并没有跟踪到详细运行步骤,从前面文章中我们知道这几个指标都需要调用LLM,但这里没有跟踪到。网上的例子可以跟踪到评估链调用大模型的过程(当然这个教程(https://blog.langchain.dev/evaluating-rag-pipelines-with-ragas-langsmith/)时间好早了):

不知道是不是因为LangChain现在不兼容RAGAS导致的。后续再看看吧。

如果觉得本文对你有帮助,麻烦点个赞和关注呗 ~~~


  • 大家好,我是同学小张,日常分享AI知识和实战案例
  • 欢迎 点赞 + 关注 👏,持续学习持续干货输出
  • 一起交流💬,一起进步💪。
  • 微信公众号也可搜【同学小张】 🙏

本站文章一览:

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。
|
17天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
74 3
|
5天前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
126 64
|
19天前
|
人工智能 弹性计算 Serverless
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
本文介绍了零售业中“人—货—场”三要素的变化,指出传统营销方式已难以吸引消费者。现代消费者更注重个性化体验,因此需要提供超出预期的内容。文章还介绍了阿里云基于函数计算的AI大模型,特别是Stable Diffusion WebUI,帮助非专业人士轻松制作高质量的促销海报。通过详细的部署步骤和实践经验,展示了该方案在实际生产环境中的应用价值。
54 6
触手可及,函数计算玩转 AI 大模型 | 简单几步,轻松实现AI绘图
|
16天前
|
人工智能 新制造 芯片
2024年中国AI大模型产业发展报告解读
2024年,中国AI大模型产业迎来蓬勃发展,成为科技和经济增长的新引擎。本文解读《2024年中国AI大模型产业发展报告》,探讨产业发展背景、现状、挑战与未来趋势。技术进步显著,应用广泛,但算力瓶颈、资源消耗和训练数据不足仍是主要挑战。未来,云侧与端侧模型分化、通用与专用模型并存、大模型开源和芯片技术升级将是主要发展方向。
|
20天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
74 4
|
11天前
|
人工智能 弹性计算 数据可视化
解决方案|触手可及,函数计算玩转 AI 大模型 评测
解决方案|触手可及,函数计算玩转 AI 大模型 评测
23 0
|
8天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗诊断中的应用及前景展望
本文旨在探讨人工智能(AI)技术在医疗诊断领域的应用现状、挑战与未来发展趋势。通过分析AI技术如何助力提高诊断准确率、缩短诊断时间以及降低医疗成本,揭示了其在现代医疗体系中的重要价值。同时,文章也指出了当前AI医疗面临的数据隐私、算法透明度等挑战,并对未来的发展方向进行了展望。
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
40 1
|
12天前
|
机器学习/深度学习 人工智能 算法
AI在医疗诊断中的应用
【10月更文挑战第42天】本文将探讨人工智能(AI)在医疗诊断中的应用,包括其优势、挑战和未来发展方向。我们将通过实例来说明AI如何改变医疗行业,提高诊断的准确性和效率。