账号密码登录

忘记密码注册账号

微信安全登录

微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录

找回密码返回

注册账号返回

其他登录方式

登录即同意《用户使用协议》和《用户隐私条款》

在万象知否，学习技能、解决问题

每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。

问答主页 -> 电脑网络

分享 收藏: X

scrapy-redis分布式爬虫的问题

Endoftheplay.2019-08-14 00:00

普通会员
11

33: 0

master 端只负责request 去重和存储调度，现在的问题是如果一个网站如果有几千页，我想用分布式，此时不能用在mater 的redis 里面 lpush 慢慢的一个个的去塞进队列了，有什么方法可以快速做呢？

我想到的就是此时不需要lpush了，每个爬虫分别爬不同的页数存数据库即可？

0

打赏

收藏

点击回答

您的回答被采纳后将获得：提问者悬赏的 11 元积分

全部回答

共 0 条

软软糯米糍万象号 1楼
Scrapy-Redis分布式爬虫是一种基于Scrapy框架的分布式爬虫。在分布式爬虫中，Scrapy-Redis会将爬取的网页数据存储在Redis中，以便后续的爬取和分析。

然而，Scrapy-Redis分布式爬虫可能会遇到一些问题，例如：
1. 数据一致性问题：如果多个节点同时从Redis中获取数据，可能会导致数据的不一致。
2. 数据量问题：如果Redis的容量不足以存储大量的爬取数据，可能会导致爬取速度慢。
3. 网络问题：如果节点之间的网络连接不稳定，可能会导致爬取数据的延迟。
为了解决这些问题，可以采取以下策略：
1. 使用Redis的持久化功能，保证数据的一致性。
2. 使用Redis的集群功能，扩大Redis的容量。
3. 使用异步处理，提高爬取速度。
4. 使用网络优化，提高网络连接的稳定性。
5. 使用缓存策略，减少对Redis的依赖。
注意：分布式爬虫需要一定的技术知识，如果你遇到问题，可以查阅Scrapy的官方文档或者在网上搜索相关解决方案。

0 打赏回复

更多回答

网站公告

扫一扫访问手机版

回答动态

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题函数计算不同地域的是不能用内网吧？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题在ARMS如何申请加入公测呀？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的，这个init方法在哪里进行添加？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器刚到期，是不是就不能再导出存档了呢？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容尝试更新怎么解决？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后就链接不上了，怎么办？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了，怎么解决？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了，是什么情况？预计能赚取 0积分收益

回到顶部

回到顶部