当前位置: 首页 > news >正文

python 爬虫抓取百度热搜

实现思路:

第1步、在百度热搜页获取热搜元素

元素类名为category-wrap_iQLoo 即我们只需要获取类名category-wrap_为前缀的元素

第2步、编写python脚本实现爬虫

import requests
from bs4 import BeautifulSoupurl = 'https://top.baidu.com/board?tab=realtime'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, 'html.parser')
hot_searches = []
# 使用CSS选择器匹配类名前缀为'category-wrap_'的元素
category_wrap_prefix_elements = soup.select('[class^="category-wrap_"]')
# 遍历并打印这些元素
for element in category_wrap_prefix_elements:title = element.find('div', class_='c-single-text-ellipsis').get_text().strip()link = element.find('a')['href']print(title, link)hot_searches.append({title, link})
print(hot_searches)

控制台打印


http://www.mrgr.cn/news/56838.html

相关文章:

  • 双亲委派机制
  • 陪护系统|护理陪护系统|护理陪护系统优势
  • SAP依靠 “增压 “Joule加速ERP迁移
  • 【办公类-57-01】美工室材料报销EXCEL表批量插入截图(图片)
  • 软考——计算机网络概论
  • 深入理解 RabbitMQ 及在.NET 中的应用
  • 100种算法【Python版】第4篇——回溯法
  • 台湾精锐APEX减速机AB系列特点解析
  • vcruntime140.dll无法继续执行代码-解决方案
  • Java项目-基于springboot框架的校园志愿者管理系统项目实战(附源码+文档)
  • 羽毛球场馆预约小程序,提高场馆便捷性、利用率
  • 南京某大厂 渗透测试工程师实习面试分享
  • 证明任一双随机矩阵都可分解为若干个置换阵的乘积
  • lib静态库转为a静态库
  • QT教程-二十二,QSS界面/控件美化
  • 计算机组成原理之虚拟存储器的基本概念、计算机组成原理之页式虚拟存储器基本原理,页表,地址转换,tlb、
  • C++字符串函数(详细解析) √
  • 选对人力资源管理系统的重要性!
  • 【QT项目】QT项目综合练习之简易计数器(QT6+文件存储)
  • 大厂为什么要禁止使用数据库自增主键
  • 传统园区与智慧园区:现代化发展的差异和优势
  • @PostConstruct 注解的作用和使用
  • HTML满屏飘字代码
  • Ubuntu22.04环境搭建MQTT服务器
  • 除了HarmonyOS NEXT,华为在原生鸿蒙之夜还带来了哪些重磅新品?
  • android openGL ES详解——混合