当前位置: 首页 > news >正文

爬虫的流程

爬虫的流程

  • 获取网页
  • 提取信息
  • 保存数据
  • 自动化程序
  • 能爬怎样的数据

获取网页

  • 获取网页就是获取网页的源代码,源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息
  • 浏览器访问网页的本质:浏览器向服务器发送请求——>返回的响应体便是网页源代码——>浏览器解析源代码呈现页面
  • python访问网页的本质:python利用urllib、requests等库实现HTTP请求——>由response等库获取响应,得到响应之后需要解析数据结构中的 body 部分得到网页的源代码——>。。。

提取信息

  • 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
  • 利用正则表达式来提取想要的数据

保存数据

  • 提取信息后,我们一般会将提取到的数据保存到某处以便后续使用
  • 保存形式:可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库,如 MySQL

自动化程序

  • 自动化程序:意思是说爬虫可以代替人来完成这些操作。(数量特别大时)

能爬怎样的数据

能对应URL,基于HTTP或HTTPS协议的,都可以抓取


http://www.mrgr.cn/news/34697.html

相关文章:

  • 毕业设计选题:基于ssm+vue+uniapp的英语学习激励系统小程序
  • 免费的高质量、美观的甘特图模板
  • 【前端】读取 xlsx 文件并转化成 json 数据
  • Springboot Mybatis条件查询
  • 基于 Amazon Bedrock +lambda函数调用大模型构建你的智能网页助手
  • 【已解决】用JAVA代码实现递归算法-从自然数中取3个数进行组合之递归算法-用递归算法找出 n(n>=3) 个自然数中取 3 个数的组合。
  • 匈牙利算法详解与实现
  • 如何使用GLib的单向链表GSList
  • 【leetcode】环形链表、最长公共前缀
  • 注册建造师执业工程规模标准(市政公用工程)
  • 计算机毕业设计Hadoop+PySpark深圳共享单车预测系统 PyHive 共享单车数据分析可视化大屏 共享单车爬虫 共享单车数据仓库 机器学习 深度学习
  • Linux 压缩制定目录下指定类型的多个文件
  • YOLO V10简单使用
  • 0-1开发自己的obsidian plugin DAY 1
  • C++的哲学思想
  • iOS 顶级神器,巨魔录音机更新2.1正式版
  • 一看就会!PS2024下载安装教程详解
  • 在 Java 中,你如何实现不可变对象?不可变对象有哪些好处?
  • 【Godot4.3】三角形类
  • JS的链判断符有几种写法,有哪些用法?