当前位置: 首页 > news >正文

python爬虫豆瓣top250

注意

1,BeautifulSoup lxml解析器安装

2,代码缩进格式

f.close()
import csvimport requests
from bs4 import BeautifulSoup# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}# 解析页面函数
def parse_html(html):# soup = BeautifulSoup(html, 'html.parser')soup = BeautifulSoup(html, 'lxml')movie_list = soup.find('ol', class_='grid_view').find_all('li')# print("response movie_list", movie_list)for movie in movie_list:title = movie.find('div', class_='hd').find('span', class_='title').get_text()rating_num = movie.find('div', class_='star').find('span', class_='rating_num').get_text()comment_num = movie.find('div', class_='star').find_all('span')[-1].get_text()writer.writerow([title, rating_num, comment_num])# 保存数据函数
def save_data():f = open('douban_movie_top250.csv', 'a', newline='', encoding='utf-8-sig')global writerwriter = csv.writer(f)writer.writerow(['电影名称', '评分', '评价人数'])for i in range(10):url = 'https://movie.douban.com/top250?start=' + str(i * 25) + '&filter='response = requests.get(url, headers=headers)# print("response text", response.text)parse_html(response.text)f.close()if __name__ == '__main__':save_data()# 1,BeautifulSoup lxml 解析器安装
# 2,BeautifulSoup 如何引入第三方库 BeautifulSoup lxml,默认是导入的是python内置的解析器
#
# 1. 安装 Python 和 pip
# 确保你已经安装了 Python 和 pip。你可以在终端中运行以下命令来检查是否已安装:
#
# bash
# python3 --version
# pip3 --version
# 如果没有安装 Python 3,可以从 Python 官网 下载并安装 Python 3。通常,安装 Python 后 pip 会自动安装。
#
# 2. 安装 BeautifulSoup 和 lxml
# 安装 beautifulsoup4
# BeautifulSoup 是一个用于解析 HTML 和 XML 的库,通常与 beautifulsoup4 包一起使用。
#
# 在终端中输入以下命令来安装 beautifulsoup4:
#
# bash
# pip3 install beautifulsoup4


http://www.mrgr.cn/news/70376.html

相关文章:

  • selinux及防火墙
  • logstash 解析数组格式json数据:split, json
  • 面试:请阐述MySQL配置文件my.cnf中参数log-bin和binlog-do-db的作用
  • 探索PyCaret:一个简化机器学习的全栈库
  • Parker派克防爆电机在实际应用中的安全性能如何保证?
  • shell编程(2)(3)
  • 精华帖分享|历史波动率和已实现波动率纠缠研究
  • 3. JVM 发展历程
  • 【Linux进程篇1】认识冯·诺依曼体系结构(引出进程详解)
  • 皮卡超级壁纸 1.4.1 | 解锁会员版的全景壁纸、动态壁纸和超级壁纸
  • solo博客源码使用idea编译运行
  • ‘conda‘ 不是内部或外部命令,也不是可运行的程序或批处理文件,Miniconda
  • 日常bug记录,easyexcel导入报错convert data ... to class java.math.BigDecimal error
  • java调用shell
  • BGP线路的优势和使用场景有哪些?
  • 两个链表求并集、交集、差集
  • 第21节 arkts 如何读取普通文件
  • wsl2更换字体|解决nvim图标无法显示问题
  • 群晖WebDAV结合内网穿透轻松实现思源笔记跨网络同步
  • Forest-HTTP客户端框架学习笔记
  • 2024年下半年网络规划设计师案例分析真题
  • 傲基股份上市首日股价跌超10%:仍依赖亚马逊,收入未恢复到2021年
  • 【IC每日一题:SVA和覆盖率知识点】
  • HTB:Photobomb[WriteUP]
  • 【安全测试】sqlmap工具(sql注入)学习
  • 【微服务】Docker 容器化