账号密码登录
微信安全登录
微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录
找回密码返回
邮箱找回 手机找回
注册账号返回
其他登录方式
分享
  • 收藏
    X
    crawlspider 登录后如何调用rules进行爬虫
    • 纯天然无毒无添加防腐剂2020-01-21 00:00
    67
    0

    看了很多教程,学着做了一下,发现运行始终是有问题。归纳起来,就是不知道登录之后,不知道怎么调用rule进行循环的爬虫。在登录之后去请求首页的时候,还是进入start_request或者parse_start_url,还是去提交登录页了,而不是从start_urls和 rules去进行爬虫。
    苦思冥想,不得其解。

    0
    打赏
    收藏
    点击回答
        全部回答
    • 0
    • CrawlSpider 是一个用于爬取网页的 Python 爬虫框架,它包含了一个名为 rules 的模块,用于定义爬虫的行为。

      要调用 rules 对爬虫进行操作,首先需要在爬虫类中导入 rules 模块,并创建一个 rules 对象。然后,可以使用 rules 对象中的方法来执行爬虫的行为。

      以下是一个简单的示例:

      ```python from crawlspider.rules import rules

      class MySpider(CrawlSpider): rules = rules.Rules()

      def parse(self, response):
          # 对网页进行解析,例如提取 URL、标题等信息
          pass
      

      创建爬虫

      my_spider = MySpider()

      调用 rules 对爬虫进行操作

      my_spider.parse(response) ```

      在这个示例中,parse 方法用于对网页进行解析,rules.Rules() 方法用于创建一个 rules 对象,用于定义爬虫的行为。parse 方法将被调用,以便对网页进行解析。rules 对象中的方法将被调用,以执行爬虫的行为。

      需要注意的是,爬虫的行为应该尽可能地符合网站的robots.txt文件的规定,不要对网站造成过大的负担。在使用爬虫时,还应该尊重网站的版权和隐私,不要进行非法爬取。

    更多回答
    扫一扫访问手机版
    • 回到顶部
    • 回到顶部