账号密码登录

忘记密码注册账号

微信安全登录

微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录

找回密码返回

注册账号返回

其他登录方式

登录即同意《用户使用协议》和《用户隐私条款》

在万象知否，学习技能、解决问题

每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。

问答主页 -> 电脑网络

分享 收藏: X

crawlspider 登录后如何调用rules进行爬虫

纯天然无毒无添加防腐剂2020-01-21 00:00

普通会员

67: 0

看了很多教程，学着做了一下，发现运行始终是有问题。归纳起来，就是不知道登录之后，不知道怎么调用rule进行循环的爬虫。在登录之后去请求首页的时候，还是进入start_request或者parse_start_url，还是去提交登录页了，而不是从start_urls和 rules去进行爬虫。
苦思冥想，不得其解。

0

打赏

收藏

点击回答

全部回答

共 0 条

丷最炫气质:✾͡姨妈ೄ೨ 普通会员 1楼
CrawlSpider 是一个用于爬取网页的 Python 爬虫框架，它包含了一个名为 rules 的模块，用于定义爬虫的行为。

要调用 rules 对爬虫进行操作，首先需要在爬虫类中导入 rules 模块，并创建一个 rules 对象。然后，可以使用 rules 对象中的方法来执行爬虫的行为。

以下是一个简单的示例：

```python from crawlspider.rules import rules

class MySpider(CrawlSpider): rules = rules.Rules()
```
def parse(self, response):
    # 对网页进行解析，例如提取 URL、标题等信息
    pass
```
创建爬虫

my_spider = MySpider()

调用 rules 对爬虫进行操作

my_spider.parse(response) ```

在这个示例中，parse 方法用于对网页进行解析，rules.Rules() 方法用于创建一个 rules 对象，用于定义爬虫的行为。parse 方法将被调用，以便对网页进行解析。rules 对象中的方法将被调用，以执行爬虫的行为。

需要注意的是，爬虫的行为应该尽可能地符合网站的robots.txt文件的规定，不要对网站造成过大的负担。在使用爬虫时，还应该尊重网站的版权和隐私，不要进行非法爬取。

0 打赏回复

更多回答

网站公告

扫一扫访问手机版

回答动态

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题函数计算不同地域的是不能用内网吧？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题在ARMS如何申请加入公测呀？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的，这个init方法在哪里进行添加？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器刚到期，是不是就不能再导出存档了呢？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容尝试更新怎么解决？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后就链接不上了，怎么办？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了，怎么解决？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了，是什么情况？预计能赚取 0积分收益

回到顶部

回到顶部