python scrapy

scrapy 怎么处理404页码：HTTP status code is not handled or not allowed

发布于 2020-03-24 10:30:52

默认情况下，scrapy遇到404页码是自动停止spider并且退出程序。

这里有两种解决方法：

1. 在`scrapy.Request()`加入错误回调方法，这样所有Request遇到的错误都会跳到该方法里，包括404

    def start_requests(self):
        yield scrapy.Request(url='xxxx', callback=self.parse, errback=self.errback)

    def errback(self, failure):
        # log all failures
        self.logger.error(repr(failure))
        pass

2. 在spider类里添加：`handle_httpstatus_list = [404]`，如：

class testSpider(scrapy.Spider):
    name = "test"
    handle_httpstatus_list = [404]

    def start_requests(self):

        yield scrapy.Request(url='xxxx', callback=self.parse)

0 条评论

暂无评论，快来发表评论吧

请登录后再发布评论，点击登录

关于作者

莫小豆

这家伙很懒，什么也没写！

文章

回答

被采纳

关注TA

发私信

2020年数据科学项目的10个惊人想法！

简明的Git 教程。浅显易懂，快速入门！

liunx包管理工具 `apt` 的常用命令

python 数据库字段名批量转化为驼峰格式

常用JS/PHP/JAVA/GO 正则大全

scrapy 怎么处理404页码：HTTP status code is not handled or not allowed

1. 在`scrapy.Request()`加入错误回调方法，这样所有Request遇到的错误都会跳到该方法里，包括404

2. 在spider类里添加：`handle_httpstatus_list = [404]`，如：

关于作者

莫小豆

相关文章

热门问题

热门标签

推荐专家

scrapy 怎么处理404页码：HTTP status code is not handled or not allowed

1. 在scrapy.Request()加入错误回调方法，这样所有Request遇到的错误都会跳到该方法里，包括404

2. 在spider类里添加：handle_httpstatus_list = [404]，如：

关于作者

莫小豆

相关文章

热门文章

热门问题

热门标签

等待解答

推荐专家

1. 在`scrapy.Request()`加入错误回调方法，这样所有Request遇到的错误都会跳到该方法里，包括404

2. 在spider类里添加：`handle_httpstatus_list = [404]`，如：