【Scrapy】 selector 学习记录三（Selector详细介绍）-白红宇

【Scrapy】 selector 学习记录三（Selector详细介绍）

阅读量：7193 次

发布时间：2019-06-29

本文共 2540 字，大约阅读时间需要 8 分钟。

Selector的详细介绍

class scrapy.selector.Selector(response = None,text = None,type = None)

selector 是对 response 的封装，用来对选取其中的特定内容。

下面是 Selector 的主要成员变量：

response 一个HtmlResponse或者XmlResponse对象

text 一个unicode字符串或者utf-8文本，当response为空的时候才有效。同时使用text和response是未定义行为

type 定义selector的类型，可以是html、xml或None(default)
- 如果type为None，那么selector会根据response自动选择最佳的type，如果定义了text那么默认成html类型
- response的类型确定
- xml：XmlResponse
- html：HtmlResponse
- html：其他类型
- 如果已经设定了type那么强制使用设定好的type。

主要成员函数：

- xpath() 寻找匹配xpath query 的节点，并返回 SelectorList 的一个实例结果，单一化其所有元素。返回的列表元素也实现了 Selector 的接口。query 是包含XPATH查询请求的字符串。- css() 应用给定的CSS选择器，返回 SelectorList 的一个实例。在后台，通过 cssselect 库和运行 .xpath() 方法，CSS查询会被转换为XPath查询。- extract() 串行化并将匹配到的节点返回一个unicode字符串列表。 结尾是编码内容的百分比- reg(regex) 应用给定的regex，并返回匹配到的unicode字符串列表。regex 可以是一个已编译的正则表达式，也可以是一个将被 re.compile(regex) 编译为正则表达式的字符串。- register_namespaces(prefix, uri) 注册给定的命名空间，其将在 Selector 中使用。 不注册命名空间，你将无法从非标准命名空间中选择或提取数据。- remove_namespaces() 移除所有的命名空间，允许使用少量的命名空间xpaths遍历文档- __nonzero__() 如果选择了任意的真实文档，将返回 True ，否则返回 False 。 也就是说， Selector 的布尔值是通过它选择的内容确定的。

SelectorList对象

class scrapy.selector.SelectorList

SelectorList 类是内建 list 类的子类，提供了一些额外的方法。

- xpath(query) 对列表中的每个元素调用 .xpath() 方法，返回结果为另一个单一化的     SelectorList- css(query) 对列表中的各个元素调用 .css() 方法，返回结果为另一个单一化的 SelectorList- extract() 对列表中的各个元素调用 .extract() 方法，返回结果为单一化的unicode字符串列表- re() 对列表中的各个元素调用 .re() 方法，返回结果为单一化的unicode字符串列表- __nonzero__() 列表非空则返回True，否则返回False

在XML响应上的选择器样例

假设已经有一个通过 XmlResponse 对象实例化的 Selector ，如下:

sel = Selector(xml_response)

选择所有的元素，返回SelectorList :

sel.xpath(“//product”)

从 Google Base XML feed 中提取所有的价钱，这需要注册一个命名空间:

sel.register_namespace("g", "http://base.google.com/ns/1.0")sel.xpath("//g:price").extract()

移除命名空间

在处理爬虫项目时，可以完全去掉命名空间而仅仅处理元素名字，这样在写更多简单/实用的XPath会方便很多。为此可以使用Selector.remove_namespaces()方法。

以Github博客的atom订阅来解释这个情况。

首先，我们使用想爬取的url来打开shell:

scrapy shell https://github.com/blog.atom

一旦进入shell，我们可以尝试选择所有的 <link> 对象，可以看到没有结果(因为Atom XML命名空间混淆了这些节点):

>>> response.xpath("//link")[]

但一旦我们调用 **Selector.remove_namespaces() **方法，所有的节点都可以直接通过他们的名字来访问:

>>> response.selector.remove_namespaces()>>> response.xpath("//link")  [
    
     ,...

如果你对为什么命名空间移除操作并不总是被调用，而需要手动调用有疑惑。这是因为存在如下两个原因，按照相关顺序如下： 1. 移除命名空间需要迭代并修改文件的所有节点，而这对于Scrapy爬取的所有文档操作需要一定的性能消耗 2. 会存在这样的情况，确实需要使用命名空间，但有些元素的名字与命名空间冲突。尽管这些情况非常少见。

如果XPath没有指定命名空间的话，那么它的命名空间为空。如果待解析XML文件含有默认命名空间的话，那么你必须添加那个命名空间的前缀，并且把命名空间的URI添加到XmlNamespaceManager中，否则，你得不到任何查询结果。

对于scrapy，这里提供了register_namespaces(prefix, uri) 和 remove_namespaces()两个函数来解决这个问题。

转载于:https://my.oschina.net/whitejavadog/blog/817136

你可能感兴趣的文章