账号密码登录
微信安全登录
微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录
找回密码返回
邮箱找回 手机找回
注册账号返回
其他登录方式
分享
  • 收藏
    X
    请问如何设计爬虫中的爬取进度保存问题?
    23
    0

    一个网站版块下有30个分类,每个分类有20个子分类,一个子分类约有30页数据,一页15条数据
    我需要爬取所有子分类的所有分页数据,因为程序可能会因为各种情况中断运行,那么我应该怎么记录已爬取的记录呢?下次启动自动从未爬取的记录开始执行。

    我的想法是先把30*20个分类的分页url爬取存起来,做个标记,1为已爬取,0为未爬取,爬虫程序从url表中取标记为0的url执行爬取。

    0
    打赏
    收藏
    点击回答
        全部回答
    • 0
    • :+酷::b 普通会员 1楼

      在设计爬虫时,爬取进度的保存是非常重要的。下面是一些可能的解决方案:

      1. 使用数据库:可以使用数据库来存储爬取进度。在爬虫中,可以定义一个爬取进度模型,然后在每次爬取完成后,更新该模型的进度。

      2. 使用文件:可以使用文件来存储爬取进度。在爬虫中,可以定义一个爬取进度文件,每次爬取完成后,将该文件中的进度保存。

      3. 使用网络请求:可以使用网络请求来保存爬取进度。在爬虫中,可以定义一个爬取进度请求,每次爬取完成后,将该请求的响应中的进度保存。

      4. 使用HTTP请求:可以使用HTTP请求来保存爬取进度。在爬虫中,可以定义一个HTTP请求,每次爬取完成后,将该请求的响应中的进度保存。

      5. 使用持久化:可以使用持久化来保存爬取进度。在爬虫中,可以定义一个持久化对象,每次爬取完成后,将该对象的进度保存。

      以上都是一些常见的解决方案,具体的选择取决于你的需求和环境。

    更多回答
    扫一扫访问手机版
    • 回到顶部
    • 回到顶部