当前位置：首页 > news >正文

爬虫中一些有用的用法

news 2025/3/13 18:27:00

文本和标签在一个级别下

如果文本和a标签在一个级别下
比如：

# 获取a标签后的第一个文本节点text_node = a.xpath('following-sibling::text()[1]')[0].strip()

将xpath的html代码转换成字符串

etree.tostring(root, pretty_print=True, encoding="utf-8")

获取所有同级标签的最后一个

data_list = html.xpath('//ul[@class=" list-paddingleft-2"]/li[last()]')

XPath中没有直接的[-1]语法来选择最后一个元素，而是使用last()函数

拿到同级标签，带class类名的第三个

(//span[@class="qb"])[4]

如果要获取一个标签的第i个值到第j个值，就使用position()

(//div[@class="name-list"])[position() >= 2 and position() <= 19]

<p>邮箱：<br>kunbao@bjtu.edu.cn</p>

在这样的样式下，拿到br后面的邮箱

string(./p[contains(text(), "邮箱：")]/text()[2])

http://www.mrgr.cn/news/94248.html

相关文章：

【Pytorch Transformers Fine-tune】使用BERT进行情感分类任务微调

Selenium 自动化测试学习总结

本地Git仓库搭建（DevStar）与Git基本命令

MySQL的安装与建表

PySide(PyQT)的mouseMoveEvent()和hoverMoveEvent()的区别

java中小型公司面试预习资料（四）：微服务架构

Unity 封装一个依赖于MonoBehaviour的计时器(上) 基本功能

Visual Studio 安装及使用教程（Windows）【安装】

JavaScript_Day2

江科大51单片机笔记【16】AD/DA（上）

环境配置 | 5分钟极简Git入门：从零上手版本控制

ROS实践（四）机器人建图（gmapping）

3.数据结构-串、数组和广义表

使用Leaflet 搭建一个前端地图项目，实现类似原神、黑神话悟空的标点互动地图效果

云效、流水线、Gradle缓存问题、build.gradle配置snapshot

css 知识点整理

vue-next-admin修改配置指南

python 面试题