Python 的网页自动化工具 DrissionPage 介绍
DrissionPage 介绍
视频教程
不要再学selenium了,DrissionPage更香_哔哩哔哩_bilibili不要再学selenium了,DrissionPage更香DrissionPage官网 https://www.drissionpage.cn/, 视频播放量 56768、弹幕量 12、点赞数 1012、投硬币枚数 503、收藏人数 3162、转发人数 301, 视频作者 Data工程师, 作者简介 code and data is cheap, show me your ppt! ,相关视频:DrissionPage和selenium启动速度对比,地表最强爬虫工具,DrissionPage,秒过RS、AKM,我发现了playwright的bug,最好用的爬虫工具,不用写代码,不用学Python |SpiderFlow介绍,脚本自动化框架现状,pythonGUI自动化操作神器pyautogui,playwright做UI自动化,少有人知道的技巧,效率至少提升300%,你还在使用selenium吗?selenium已经过时了。-DrissionPage,p19爬虫自动化之drissionpage实现随时切换代理ip,Drissionpage库 骚神课堂入门教学https://www.bilibili.com/video/BV1mB4y1o7sT?spm_id_from=333.788.videopod.sections&vd_source=efbefa737a60b2966747a4383eed8b09
DrissionPage 是一个基于 Python 的网页自动化工具,既能控制浏览器,也能收发数据包,还能把两者合而为一。它兼顾了浏览器自动化的便利性和 requests
的高效率,功能强大,内置无数人性化设计和便捷功能,语法简洁而优雅,代码量少,对新手友好。
主要特性
-
强大的自研内核:
-
无 webdriver 特征,无需为不同版本的浏览器下载不同的驱动。
-
运行速度更快,可以跨 iframe 查找元素,无需切入切出。
-
可以同时操作浏览器中的多个标签页,即使标签页为非激活状态,无需切换。
-
可以直接读取浏览器缓存来保存图片,无需用 GUI 点击另存。
-
可以对整个网页截图,包括视口外的部分(90以上版本浏览器支持)。
-
可处理非
open
状态的 shadow-root。
-
-
亮点功能:
-
极简的语法规则,集成大量常用功能,代码更优雅。
-
定位元素更加容易,功能更强大稳定。
-
无处不在的等待和自动重试功能,使不稳定的网络变得易于控制,程序更稳定,编写更省心。
-
提供强大的下载工具,操作浏览器时也能享受快捷可靠的下载功能。
-
允许反复使用已经打开的浏览器,无需每次运行从头启动浏览器,调试超方便。
-
使用 ini 文件保存常用配置,自动调用,提供便捷的设置,远离繁杂的配置项。
-
内置 lxml 作为解析引擎,解析速度成几个数量级提升。
-
使用 POM 模式封装,可直接用于测试,便于扩展。
-
高度集成的便利功能,从每个细节中体现。
-
使用示例
安装
首先,通过 pip 安装 DrissionPage 库:
sh复制
pip install drissionpage
基本使用
-
初始化浏览器:
Python复制
from drission_page import DrissionPage# 初始化 DrissionPage
drission = DrissionPage(browser='chrome')
# 打开一个网页
drission.get('https://example.com')
-
元素定位与操作:
Python复制
# 查找元素并输入文本
input_element = drission.ele('id', 'username')
input_element.send_keys('my_username')# 点击按钮
button = drission.ele('css selector', '.submit-button')
button.click()
-
截图功能:
Python复制
# 截取网页截图
drission.screenshot('screenshot.png')
-
数据提取:
Python复制
# 获取元素的文本内容
element_text = drission.ele('.headline').text
print(element_text)# 获取链接的 href 属性
link = drission.ele('.link')
href = link.get_attribute('href')
print(href)
-
与其他库的集成:
Python复制
from bs4 import BeautifulSoup# 获取页面源码
html_content = drission.content
# 使用 BeautifulSoup 解析
soup = BeautifulSoup(html_content, 'html.parser')
title = soup.title.text
print(title)
高级功能
-
登录状态的维持与数据爬取:
Python复制
# 登录网站
drission.get('https://www.example.com/login')
username = drission.ele('id', 'username')
password = drission.ele('id', 'password')
username.send_keys('your_username')
password.send_keys('your_password')
drission.ele('css selector', '.login-button').click()# 等待页面跳转
drission.wait_for_page_loaded()# 访问商品页面
drission.get('https://www.example.com/products')# 提取商品信息
products = drission.ele('css selector', '.product-list').ele_list('css selector', '.product-item')
for product in products:name = product.ele('css selector', '.product-name').textprice = product.ele('css selector', '.product-price').textprint(f'Product Name: {name}, Price: {price}')# 关闭浏览器
drission.quit()
-
异常处理与日志记录:
Python复制
import logging# 设置日志级别和格式
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')try:# 尝试执行可能出错的操作drission.get('https://exampleforum.com/nonexistent_page')
except Exception as e:# 捕获异常,并记录相关信息logging.error(f"Failed to access the page: {e}")
else:logging.info("Page accessed successfully.")
finally:# 清理资源drission.quit()
适用场景
DrissionPage 适用于需要同时进行浏览器自动化和数据抓取的项目,特别是在处理需要登录的网站爬虫任务时,它简化了原本复杂的流程,无需深入分析网络数据包或 JavaScript 代码,开发者可以通过简洁的代码实现自动化的登录过程。这不仅提高了开发效率,还降低了出错的可能性。
希望这些信息对你有所帮助!如果你有其他问题或需要进一步的示例,请告诉我。