当前位置: 首页 > news >正文

LangChain实践7-文档加载

基于 LangChain 提供给 LLM 访问用户 个人数据的能力,首先要加载并处理用户的多样化、非结构化个人数据。在本章,我们首先介绍如何加 载文档(包括文档、视频、网页等),这是访问个人数据的第一步。

PDF 文档

pip install -q pypdf

from langchain.document_loaders import PyPDFLoader

# 创建一个 PyPDFLoader Class 实例,输入为待加载的pdf文档路径

loader = PyPDFLoader("./data/seatunnel.pdf")

# 调用 PyPDFLoader Class 的函数 load对pdf文件进行加载

pages = loader.load()

探索加载的数据

print(type(pages))

print(len(pages))

page = pages[0]

print(type(page))

print(page.page_content[0:100])

print(page.metadata)

网页文档

加载网页文档

from langchain.document_loaders import WebBaseLoader

# 创建一个 WebBaseLoader Class 实例

url = "https://xxx"

header = {'User-Agent': 'python-requests/2.27.1',

    'Accept-Encoding': 'gzip, deflate, br',

    'Accept': '*/*',

    'Connection': 'keep-alive'}

loader = WebBaseLoader(web_path=url,header_template=header)

# 调用 WebBaseLoader Class 的函数 load对文件进行加载

pages = loader.load()

print("Type of pages: ", type(pages))

print("Length of pages: ", len(pages))

page = pages[0]

print("Type of page: ", type(page))

print("Page_content: ", page.page_content[:500])

print("Meta Data: ", page.metadata)

import json

convert_to_json = json.loads(page.page_content)

print(convert_to_json)


http://www.mrgr.cn/news/90375.html

相关文章:

  • C语言基础11:分支结构以及if的使用
  • 【数据】数据领域常用名词解释(第二批20个)+ 例子
  • Python:凯撒密码
  • javaEE-11.javaScript入门
  • 认识网络安全
  • 【C语言标准库函数】标准输入输出函数详解[4]:二进制文件读写函数
  • 在freertos中,中断优先级和任务优先级之间的关系和使用方法
  • 数智融合:如何利用大模型解决离线数仓历史项目烟囱式开发的完整解决方案
  • [python] list
  • 分治范式下的快速排序全解:C++实现、时间复杂度优化与工程化实践
  • langchain系列(一) - LangChain 基础概念
  • Win11从零开始配置Ubuntu虚拟机(2025.2)
  • vant4 van-list组件的使用
  • RAG核心机制和原理概述-3
  • 数据结构-基础
  • ES 索引结构
  • 对接DeepSeek
  • 尚硅谷的ShardingShphere分库分表课程总结
  • ARM Cortex-M3/M4 权威指南 笔记【一】技术综述
  • 【腾讯地图】录入经纬度功能 - 支持地图选点
  • 3. CSS中@scope
  • 深入解析 STM32 GPIO:结构、配置与应用实践
  • FAST_LIVO2初次安装编译
  • DaDianNao:一种无主存储器的多核加速器
  • 西门子S7-200 PLC串口PPI转以太网通讯的模块链接方式
  • 解决:Cannot find a valid baseurl for repo: base/7/x86_64