账号密码登录

忘记密码注册账号

微信安全登录

微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录

找回密码返回

注册账号返回

其他登录方式

登录即同意《用户使用协议》和《用户隐私条款》

在万象知否，学习技能、解决问题

每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。

问答主页 -> 电脑网络

分享 收藏: X

请问如何设计爬虫中的爬取进度保存问题？

夏目2020-01-04 14:21

普通会员

23: 0

一个网站版块下有30个分类，每个分类有20个子分类，一个子分类约有30页数据，一页15条数据
我需要爬取所有子分类的所有分页数据，因为程序可能会因为各种情况中断运行，那么我应该怎么记录已爬取的记录呢？下次启动自动从未爬取的记录开始执行。

我的想法是先把30*20个分类的分页url爬取存起来，做个标记，1为已爬取，0为未爬取，爬虫程序从url表中取标记为0的url执行爬取。

0

打赏

收藏

点击回答

全部回答

共 0 条

:+酷::b 普通会员 1楼
在设计爬虫时，爬取进度的保存是非常重要的。下面是一些可能的解决方案：
1. 使用数据库：可以使用数据库来存储爬取进度。在爬虫中，可以定义一个爬取进度模型，然后在每次爬取完成后，更新该模型的进度。
2. 使用文件：可以使用文件来存储爬取进度。在爬虫中，可以定义一个爬取进度文件，每次爬取完成后，将该文件中的进度保存。
3. 使用网络请求：可以使用网络请求来保存爬取进度。在爬虫中，可以定义一个爬取进度请求，每次爬取完成后，将该请求的响应中的进度保存。
4. 使用HTTP请求：可以使用HTTP请求来保存爬取进度。在爬虫中，可以定义一个HTTP请求，每次爬取完成后，将该请求的响应中的进度保存。
5. 使用持久化：可以使用持久化来保存爬取进度。在爬虫中，可以定义一个持久化对象，每次爬取完成后，将该对象的进度保存。
以上都是一些常见的解决方案，具体的选择取决于你的需求和环境。

0 打赏回复

更多回答

网站公告

扫一扫访问手机版

回答动态

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题函数计算不同地域的是不能用内网吧？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题在ARMS如何申请加入公测呀？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的，这个init方法在哪里进行添加？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器刚到期，是不是就不能再导出存档了呢？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容尝试更新怎么解决？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后就链接不上了，怎么办？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了，怎么解决？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了，是什么情况？预计能赚取 0积分收益

回到顶部

回到顶部