博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy简单学习2—解析简单的spider代码
阅读量:6124 次
发布时间:2019-06-21

本文共 1009 字,大约阅读时间需要 3 分钟。

学习网站:

解析代码:

import scrapyfrom tutorial.items import DmItemclass DmozSpider(scrapy.Spider):    name = "dm" #爬虫名    allowed_domains = ["dmoz.org"]#allow_domains是搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页。    start_urls = [        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"    ]#要爬取的网站                #parse解析的方法,        #调用的时候传入从每一个URL传回的Response对象作为唯一参数,        #负责解析并匹配抓取的数据(解析为item),跟踪更多的URL。    def parse(self, response):                #爬取网页所有的ul标签下li标签        for li in response.xpath('//*[@id="bd-cross"]/fieldset[3]/ul/li'):            #项目=载入DmItem()类            item = DmItem()            #项目['标题']=li标签里面的a标签的文子()            item['title'] = li.xpath('a/text()').extract()            #连接=li标签里a标签的href属性            item['link'] = li.xpath('a/@href').extract()            #描述=li标签里的text()            item['desc'] = li.xpath('text()').extract()                        yield item#返回项目

备注:简单的罗列一下有用的xpath路径表达式

简单的罗列一下有用的xpath路径表达式

转载地址:http://aibua.baihongyu.com/

你可能感兴趣的文章
Shell基础之-正则表达式
查看>>
JavaScript异步之Generator、async、await
查看>>
讲讲吸顶效果与react-sticky
查看>>
c++面向对象的一些问题1 0
查看>>
直播视频流技术名词
查看>>
网易跟贴这么火,背后的某个力量不可忽视
查看>>
企业级java springboot b2bc商城系统开源源码二次开发-hystrix参数详解(八)
查看>>
java B2B2C 多租户电子商城系统- 整合企业架构的技术点
查看>>
IOC —— AOP
查看>>
比特币现金将出新招,推动比特币现金使用
查看>>
数据库的这些性能优化,你做了吗?
查看>>
某大型网站迁移总结(完结)
查看>>
mysql的innodb中事务日志(redo log)ib_logfile
查看>>
部署SSL证书后,网页内容造成页面错误提示的处理办法
查看>>
MS SQLSERVER通用存储过程分页
查看>>
60.使用Azure AI 自定义视觉服务实现物品识别Demo
查看>>
Oracle 冷备份
查看>>
jq漂亮实用的select,select选中后,显示对应内容
查看>>
C 函数sscanf()的用法
查看>>
python模块之hashlib: md5和sha算法
查看>>