当前位置：首页 > news >正文

小红书笔记采集器

news 2025/12/19 8:35:22

小红书笔记采集器：一个 Python 项目

作为小红书的fan，我被激发了创造一个Python项目，它可以收集小红书中的笔记。在这篇文章中，我将向您介绍我的项目，小红书笔记采集器，并指导您如何构建它。

动机
小红书是一个独特的平台，用户可以分享他们的思想、经验和故事，以短笔记的形式。这些笔记通常是鼓励人、幽默或让人思考的，让它们成为娱乐和激发的来源。但是，因为没有官方 API，所以对小红书笔记进行编程采集变得很困难。

项目概述
小红书笔记采集器的目标是创建一个Python脚本，它可以从小红书平台中采集用户生成的笔记。脚本将：

从小红书中 fetch 用户生成的笔记
解析每个笔记页面的 HTML 结构
提取相关信息，如笔记内容、作者和时间戳

技术要求
为了构建这个项目，你需要：

Python 3.x（我使用 Python 3.9）
BeautifulSoup 库（版本 4.9.1 或更高）
requests 库（版本 2.22.0 或更高）

步骤实现
以下是小红书笔记采集器的步骤实现：

步骤 1：安装所需库

使用 pip 安装 BeautifulSoup 和 requests：

pip install beautifulsoup4 requests

步骤 2：编写笔记采集函数

创建一个新的 Python 文件（例如 little_red_book_collector.py）并添加以下代码：

import requests
from bs4 import BeautifulSoupdef collect_notes(username):# 设置用户笔记页面的 URLurl = f"https://www.xiaohongshu.com/user/{username}/note/"# 发送 GET 请求来 fetch 签名 pageresponse = requests.get(url)# 使用 BeautifulSoup 解析 HTML 内容soup = BeautifulSoup(response.content, 'html.parser')# 查找笔记元素note_elements = soup.find_all('div', class_='note-item')# 提取相关信息notes = []for note_element in note_elements:note_content = note_element.find('p').text.strip()author = note_element.find('a')['username']timestamp = note_element.find('time')['datetime']# 将提取的信息存储为一个字典note = {'content': note_content, 'author': author, 'timestamp': timestamp}notes.append(note)return notes# 示例使用：采集用户 "xiaohongshu" 的笔记
notes = collect_notes("xiaohongshu")
print(notes)