当前位置: 首页 > news >正文

爬虫中一些有用的用法

文本和标签在一个级别下

如果文本和a标签在一个级别下
比如:

# 获取a标签后的第一个文本节点text_node = a.xpath('following-sibling::text()[1]')[0].strip()

将xpath的html代码转换成字符串

etree.tostring(root, pretty_print=True, encoding="utf-8")

获取所有同级标签的最后一个

data_list = html.xpath('//ul[@class=" list-paddingleft-2"]/li[last()]')

XPath中没有直接的[-1]语法来选择最后一个元素,而是使用last()函数

拿到同级标签,带class类名的第三个

(//span[@class="qb"])[4]

如果要获取一个标签的第i个值到第j个值,就使用position()

(//div[@class="name-list"])[position() >= 2 and position() <= 19]

<p>邮箱:<br>kunbao@bjtu.edu.cn</p>

在这样的样式下,拿到br后面的邮箱

string(./p[contains(text(), "邮箱:")]/text()[2])


http://www.mrgr.cn/news/94248.html

相关文章:

  • Qt:绘图API
  • 【Pytorch Transformers Fine-tune】使用BERT进行情感分类任务微调
  • Selenium 自动化测试学习总结
  • 本地Git仓库搭建(DevStar)与Git基本命令
  • MySQL的安装与建表
  • PySide(PyQT)的mouseMoveEvent()和hoverMoveEvent()的区别
  • java中小型公司面试预习资料(四):微服务架构
  • Unity 封装一个依赖于MonoBehaviour的计时器(上) 基本功能
  • Visual Studio 安装及使用教程(Windows)【安装】
  • JavaScript_Day2
  • 江科大51单片机笔记【16】AD/DA(上)
  • 环境配置 | 5分钟极简Git入门:从零上手版本控制
  • IP 地址
  • ROS实践(四)机器人建图(gmapping)
  • 3.数据结构-串、数组和广义表
  • 使用Leaflet 搭建一个前端地图项目,实现类似原神、黑神话悟空的标点互动地图效果
  • 云效、流水线、Gradle缓存问题、build.gradle配置snapshot
  • css 知识点整理
  • vue-next-admin修改配置指南
  • python 面试题