账号密码登录
微信安全登录
微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录
找回密码返回
邮箱找回 手机找回
注册账号返回
其他登录方式
分享
  • 收藏
    X
    python 爬虫报 404
    25
    0
    019-01-05 15:50:16 [csrc][scrapy.extensions.logstats] INFO: Crawled 167 pages (at 10 pages/min), scraped 0 items (at 0 items/min)
    2019-01-05 15:50:19 [csrc][scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340240.htm>; (referer: http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_9.html)
    2019-01-05 15:50:19 [csrc][scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404 http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340240.htm>;: HTTP status code is not handled or not allowed
    2019-01-05 15:50:24 [csrc][scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340241.htm>; (referer: http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_9.html)
    2019-01-05 15:50:29 [csrc][scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340243.htm>; (referer: http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_9.html)
    2019-01-05 15:50:29 [csrc][scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404 http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340243.htm>;: HTTP status code is not handled or not allowed
    2019-01-05 15:50:36 [csrc][scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340245.htm>; (referer: http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_9.html)
    2019-01-05 15:50:36 [csrc][scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404 http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340245.htm>;: HTTP status code is not handled or not allowed
    2019-01-05 15:50:42 [csrc][scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340247.htm>; (referer: http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_9.html)
    2019-01-05 15:50:42 [csrc][scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404 http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340247.htm>;: HTTP status code is not handled or not allowed
    2019-01-05 15:50:49 [csrc][scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340246.htm>; (referer: http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/index_9.html)
    2019-01-05 15:50:49 [csrc][scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404 http://www.csrc.gov.cn/pub/zjhpublic/G00306202/201806/t20180622_340246.htm>;: HTTP status code is not handled or not allowed
    
    
    
    0
    打赏
    收藏
    点击回答
        全部回答
    • 0
    • 我瞎跟我走 普通会员 1楼

      404错误通常是由于页面不存在、请求URL有误或者网络问题导致的。以下是几种可能的解决方案:

      1. 检查URL:确保你提供的URL是正确的,是否正确拼写,是否包含所有的必要的路径信息,如参数和查询字符串。

      2. 检查页面:确保你访问的页面确实存在。你可以在浏览器中打开这个URL,看看它是否能正常打开。如果不能,可能需要检查这个页面的源代码或者在服务器上检查它是否存在。

      3. 检查服务器:如果URL正确,那么可能是服务器的问题。你可以在服务器的配置文件中检查是否有404错误的记录。如果存在,那么可能需要联系服务器管理员解决问题。

      4. 使用代理服务器:如果服务器不能正常处理你的请求,你可以在请求中添加一个代理服务器。例如,你可以使用http://www.example.com/api作为代理服务器,然后将请求转发到实际的服务器。

      5. 使用错误处理:在你的爬虫代码中添加错误处理,如果请求失败,你可以捕获这个错误并打印一条错误消息,然后继续爬取其他页面。

      6. 使用HTTP代理:如果你的请求经常被服务器拒绝,你可能需要使用HTTP代理。例如,你可以使用http://www.example.com/api作为代理服务器,然后将请求转发到实际的服务器。这样,服务器可能会更好地处理你的请求。

    更多回答
    扫一扫访问手机版
    • 回到顶部
    • 回到顶部