当前位置: 首页 > news >正文

【爬虫一】python爬虫基础合集一

【爬虫一】python爬虫基础合集一

        • 1. 网络请求了解
            • 1.1. 请求的类型
            • 1.2. 网络请求协议
            • 1.3. 网络请求过程简单图解
            • 1.4. 网络请求Headers(其中的关键字释义):请求头、响应头
        • 2. 网络爬虫的基本工作节点
            • 2.1. 了解简单网络请求获取响应数据的过程所涉及要点

1. 网络请求了解
1.1. 请求的类型
1. get
2. post
3. put
4. delete
5. head
1.2. 网络请求协议
http:超文本传输协议
https:安全超文本传输协议

网络协议之基础

1.3. 网络请求过程简单图解

在这里插入图片描述

1.4. 网络请求Headers(其中的关键字释义):请求头、响应头
Accept:文本的格式
Accept-Encoding:编码格式
Connection:长连接、短连接
Cookie:验证用的
Host:域名
Referer:来源
User-Agent:浏览器和用户信息

请求头、响应头、请求方式

2. 网络爬虫的基本工作节点
 1. 确认你需要爬取的URL2. 使用python代码发送请求获取数据3. 解析获取到的数据(精确数据)(1)找到新的目标回到第一步、二步、三步(自动化)4. 数据持久化上面4步所涉及模块及知识点:python3:urlib.request、request(第三方)、数据解析:xpath  bs4  数据存储
2.1. 了解简单网络请求获取响应数据的过程所涉及要点
import urllib.request
import urllib.parse
import string# 关键点1:python不支持中文,需要进行转义,涉及:urllib.parse.quote、string
# python:是解释性语言;解析器只支持 ascii 0- 127 不支持中文
url = 'http://www.baidu.com/s?wd='
name = '美女'
final_url = url + name
# 转义后的url:
url_end = urllib.parse.quote(final_url, safe=string.printable)
res =  urllib.request.urlopen(url_end)
# 关键点2:获得请求的响应response,是一个对象;需要read()后,编码decode("utf-8");
# 关键点3:写入文件with open() as f, 连接上下文
with open('test2.html', 'w', encoding='utf-8') as f:f.write(res.read().decode('utf-8'))

http://www.mrgr.cn/news/80408.html

相关文章:

  • D7000 低电压立体声手机功放电路芯片,电源纹波抑制比高静态电流低,内置节电模式开关和静噪开关 外接元件少所需外围元件少
  • 期末速成C++【类和对象】
  • 如何自定义网卡指示灯?
  • Redis应用—4.在库存里的应用
  • 国信华源科技赋能长江蓄滞洪区水闸管护项目验收成果报道
  • PHP开发日志 ━━ 基础知识:四种不同的变量返回方式该如何调用
  • ubuntu下anconda装pytorch
  • 业务观测:从定义到场景化分析
  • Linux栈帧
  • DALL·E 2(内含扩散模型介绍)-生成式模型【学习笔记】
  • elasticsearch 使用enrich processor填充数据
  • es中段是怎么合并的
  • java中的List、数组和set
  • 电脑显示器选购指南2024
  • 如何在繁忙的生活中找到自己的节奏?
  • M3DM的autodl环境构建过程笔记
  • 【开源】使用环信UIKit for uniapp 做一个IM即时聊天应用
  • monorepo代码管理框架
  • Linux NVIDIA GPU linpack 测试
  • Timestamp Unix时间戳在线转换 - 加菲工具
  • Windows域 - Java实现用户增删改查,修改用户密码
  • 51c自动驾驶~合集41
  • DES笔记整理
  • D3 基础1
  • vue中slot插槽的使用(默认插槽,具名插槽,作用域插槽)
  • QT c++ 测控系统 一套报警规则(上)