当前位置：首页 > news >正文

LangChain实践7-文档加载

news 2025/2/12 13:26:09

基于 LangChain 提供给 LLM 访问用户个人数据的能力，首先要加载并处理用户的多样化、非结构化个人数据。在本章，我们首先介绍如何加载文档（包括文档、视频、网页等），这是访问个人数据的第一步。

PDF 文档

pip install -q pypdf

from langchain.document_loaders import PyPDFLoader

# 创建一个 PyPDFLoader Class 实例，输入为待加载的pdf文档路径

loader = PyPDFLoader("./data/seatunnel.pdf")

# 调用 PyPDFLoader Class 的函数 load对pdf文件进行加载

pages = loader.load()

探索加载的数据

print(type(pages))

print(len(pages))

page = pages[0]

print(type(page))

print(page.page_content[0:100])

print(page.metadata)

网页文档

加载网页文档

from langchain.document_loaders import WebBaseLoader

# 创建一个 WebBaseLoader Class 实例

url = "https://xxx"

header = {'User-Agent': 'python-requests/2.27.1',

'Accept-Encoding': 'gzip, deflate, br',

'Accept': '*/*',

'Connection': 'keep-alive'}

loader = WebBaseLoader(web_path=url,header_template=header)

# 调用 WebBaseLoader Class 的函数 load对文件进行加载

pages = loader.load()

print("Type of pages: ", type(pages))

print("Length of pages: ", len(pages))

page = pages[0]

print("Type of page: ", type(page))

print("Page_content: ", page.page_content[:500])

print("Meta Data: ", page.metadata)

import json

convert_to_json = json.loads(page.page_content)

print(convert_to_json)

查看全文

http://www.mrgr.cn/news/90375.html

C语言基础11：分支结构以及if的使用

【数据】数据领域常用名词解释（第二批20个）+ 例子

Python：凯撒密码

javaEE-11.javaScript入门

认识网络安全

【C语言标准库函数】标准输入输出函数详解[4]：二进制文件读写函数

在freertos中，中断优先级和任务优先级之间的关系和使用方法

数智融合：如何利用大模型解决离线数仓历史项目烟囱式开发的完整解决方案

[python] list

分治范式下的快速排序全解：C++实现、时间复杂度优化与工程化实践

langchain系列（一） - LangChain 基础概念

Win11从零开始配置Ubuntu虚拟机（2025.2）

尚硅谷的ShardingShphere分库分表课程总结

ARM Cortex-M3/M4 权威指南笔记【一】技术综述

【腾讯地图】录入经纬度功能 - 支持地图选点

3. CSS中@scope

深入解析 STM32 GPIO：结构、配置与应用实践

FAST_LIVO2初次安装编译

DaDianNao：一种无主存储器的多核加速器

西门子S7-200 PLC串口PPI转以太网通讯的模块链接方式

解决：Cannot find a valid baseurl for repo: base/7/x86_64

PDF 文档

探索加载的数据

网页文档

加载网页文档

相关文章：