当前位置: 首页 > news >正文

scrapy爬取名人名言

爬取名人名言:http://quotes.toscrape.com/

1 创建爬虫项目,在终端中输入:

scrapy startproject quotes

在这里插入图片描述

2 创建之后,在spiders文件夹下面创建爬虫文件quotes.py,内容如下:

import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractorclass Quotes(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ['http://quotes.toscrape.com/']rules = (Rule(LinkExtractor(allow='/page/\d+'), callback='parse_quotes', follow=True),Rule(LinkExtractor(allow='/author/\w+'), callback='parse_author'))def parse_quotes(self, response):for quote in response.css('quote'):yield {'content': quote.css('.text::text').extract_first(),'author': quote.css('.author::text').extract_first(),'tags': quote.css('.tag::text').extract_first()}def parse_author(selfself, response):name = response.css('.author-title::text').extract_first()author_born_date = response.css('.author-born-date::text').extract_first()author_born_location = response.css('.author-born-location::text').extract_first()author_description = response.css('.author-description::text').extract_first()return ({'name': name,'author_born_date': author_born_date,'author_born_location': author_born_location,'author_description': author_description})

目录结构如下:
在这里插入图片描述

3 运行爬虫

在终端中执行scrapy crawl quotes,结果如图所示:
在这里插入图片描述
到此,一个简单的爬虫就完成了。


http://www.mrgr.cn/news/63711.html

相关文章:

  • kafka里的consumer 是推还是拉?
  • TikTok直播专线:提升直播效果和体验
  • 专线物流公共服务平台:数据驱动,标准引领,共创金融双赢新时代
  • 信而泰防火墙安全测试解决方案:为网络安全保驾护航
  • 【c++篇】:模拟实现string类--探索字符串操作的底层逻辑
  • [ 应急响应靶场实战 ] VMware 搭建win server 2012应急响应靶机 攻击者获取服务器权限上传恶意病毒 防守方人员应急响应并溯源
  • 动态添加的元素点击事件无效
  • sklearn 实现随机森林分类器 - python 实现
  • CSP-S 2023 提高级 第一轮试题(初赛)答案及解析
  • 因为Flock,Flutter又凉一次
  • 《双指针篇》---双指针算法原理
  • SpringMvc day1101
  • L2.【LeetCode笔记】反转链表
  • vue3项目编码时相对合理的顺序推荐仅个人记录备用
  • elementplus组件库el-menu组件中的default-active属性使用
  • Mac “屏幕保护程序启动或显示器关闭后需要密码“无效
  • AIGC生成式人工智能——泼天的富贵(三)
  • 飞机布雷盖航程公式
  • python实战项目51:selenium结合requests获取某众点评评论
  • 价值为王,浅析基础大模型行业应用创新发展新路径
  • YOLO11改进 | Neck | 有效提升小目标检测效果,附完整代码结构图【论文必备】
  • C++之多态(上)
  • 推荐一款音乐制作软件:Ableton Live Suite
  • 不可能的任务:这款浏览器竟然可以同时满足速度与隐私
  • 深入解析 Transformers 框架(三):Qwen2.5 大模型的 AutoTokenizer 技术细节
  • HJ38 求小球落地5次后所经历的路程和第5次反弹的高度