- 23
- 0
一个网站版块下有30个分类,每个分类有20个子分类,一个子分类约有30页数据,一页15条数据
我需要爬取所有子分类的所有分页数据,因为程序可能会因为各种情况中断运行,那么我应该怎么记录已爬取的记录呢?下次启动自动从未爬取的记录开始执行。
我的想法是先把30*20个分类的分页url爬取存起来,做个标记,1为已爬取,0为未爬取,爬虫程序从url表中取标记为0的url执行爬取。
0
打赏
收藏
点击回答
- 共 0 条
- 全部回答
-
:+酷::b 普通会员 1楼
在设计爬虫时,爬取进度的保存是非常重要的。下面是一些可能的解决方案:
-
使用数据库:可以使用数据库来存储爬取进度。在爬虫中,可以定义一个爬取进度模型,然后在每次爬取完成后,更新该模型的进度。
-
使用文件:可以使用文件来存储爬取进度。在爬虫中,可以定义一个爬取进度文件,每次爬取完成后,将该文件中的进度保存。
-
使用网络请求:可以使用网络请求来保存爬取进度。在爬虫中,可以定义一个爬取进度请求,每次爬取完成后,将该请求的响应中的进度保存。
-
使用HTTP请求:可以使用HTTP请求来保存爬取进度。在爬虫中,可以定义一个HTTP请求,每次爬取完成后,将该请求的响应中的进度保存。
-
使用持久化:可以使用持久化来保存爬取进度。在爬虫中,可以定义一个持久化对象,每次爬取完成后,将该对象的进度保存。
以上都是一些常见的解决方案,具体的选择取决于你的需求和环境。
-
更多回答
网站公告
- 扫一扫访问手机版
回答动态

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题函数计算不同地域的是不能用内网吧?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题在ARMS如何申请加入公测呀?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的,这个init方法在哪里进行添加?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器刚到期,是不是就不能再导出存档了呢?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容 尝试更新怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后 就链接不上了,怎么办?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了,怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了,是什么情况?预计能赚取 0积分收益
- 回到顶部
- 回到顶部
