LangChain实践7-文档加载
基于 LangChain 提供给 LLM 访问用户 个人数据的能力,首先要加载并处理用户的多样化、非结构化个人数据。在本章,我们首先介绍如何加 载文档(包括文档、视频、网页等),这是访问个人数据的第一步。
PDF 文档
pip install -q pypdf
from langchain.document_loaders import PyPDFLoader
# 创建一个 PyPDFLoader Class 实例,输入为待加载的pdf文档路径
loader = PyPDFLoader("./data/seatunnel.pdf")
# 调用 PyPDFLoader Class 的函数 load对pdf文件进行加载
pages = loader.load()
探索加载的数据
print(type(pages))
print(len(pages))
page = pages[0]
print(type(page))
print(page.page_content[0:100])
print(page.metadata)
网页文档
加载网页文档
from langchain.document_loaders import WebBaseLoader
# 创建一个 WebBaseLoader Class 实例
url = "https://xxx"
header = {'User-Agent': 'python-requests/2.27.1',
'Accept-Encoding': 'gzip, deflate, br',
'Accept': '*/*',
'Connection': 'keep-alive'}
loader = WebBaseLoader(web_path=url,header_template=header)
# 调用 WebBaseLoader Class 的函数 load对文件进行加载
pages = loader.load()
print("Type of pages: ", type(pages))
print("Length of pages: ", len(pages))
page = pages[0]
print("Type of page: ", type(page))
print("Page_content: ", page.page_content[:500])
print("Meta Data: ", page.metadata)
import json
convert_to_json = json.loads(page.page_content)
print(convert_to_json)