当前位置：首页 > news >正文

爬虫的流程

news 2025/4/26 18:13:20

爬虫的流程

获取网页
提取信息
保存数据
自动化程序
能爬怎样的数据

获取网页

获取网页就是获取网页的源代码，源代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息
浏览器访问网页的本质：浏览器向服务器发送请求——>返回的响应体便是网页源代码——>浏览器解析源代码呈现页面
python访问网页的本质：python利用urllib、requests等库实现HTTP请求——>由response等库获取响应，得到响应之后需要解析数据结构中的 body 部分得到网页的源代码——>。。。

提取信息

由于网页的结构有一定的规则，所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
利用正则表达式来提取想要的数据

保存数据

提取信息后，我们一般会将提取到的数据保存到某处以便后续使用
保存形式：可以简单保存为 TXT 文本或 JSON 文本，也可以保存到数据库，如 MySQL

自动化程序

自动化程序：意思是说爬虫可以代替人来完成这些操作。（数量特别大时）

能爬怎样的数据

能对应URL，基于HTTP或HTTPS协议的，都可以抓取

http://www.mrgr.cn/news/34697.html

相关文章：

毕业设计选题：基于ssm+vue+uniapp的英语学习激励系统小程序

免费的高质量、美观的甘特图模板

【前端】读取 xlsx 文件并转化成 json 数据

Springboot Mybatis条件查询

基于 Amazon Bedrock +lambda函数调用大模型构建你的智能网页助手

【已解决】用JAVA代码实现递归算法-从自然数中取3个数进行组合之递归算法-用递归算法找出 n(n＞=3) 个自然数中取 3 个数的组合。

匈牙利算法详解与实现

如何使用GLib的单向链表GSList

【leetcode】环形链表、最长公共前缀

注册建造师执业工程规模标准（市政公用工程）

计算机毕业设计Hadoop+PySpark深圳共享单车预测系统 PyHive 共享单车数据分析可视化大屏共享单车爬虫共享单车数据仓库机器学习深度学习

Linux 压缩制定目录下指定类型的多个文件

YOLO V10简单使用

0-1开发自己的obsidian plugin DAY 1

C++的哲学思想

iOS 顶级神器，巨魔录音机更新2.1正式版

一看就会！PS2024下载安装教程详解

在 Java 中，你如何实现不可变对象？不可变对象有哪些好处？

【Godot4.3】三角形类

JS的链判断符有几种写法，有哪些用法？