账号密码登录
微信安全登录
微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录
找回密码返回
邮箱找回 手机找回
注册账号返回
其他登录方式
分享
  • 收藏
    X
    我这个半手动爬虫方案合理吗
    54
    0
    考虑到爬虫的稳定性还需要测试,如果写成多线程,会增加系统不稳定。目前解决方案是,利用pycharm本身的run功能,同时运行多个相同脚本(类似开多个窗口)。(用redis共享待抓取列。)类似这样的“分布式方案”不知道是否合理?有没有更好的办法?
    0
    打赏
    收藏
    点击回答
        全部回答
    • 0
    • 洒了囚心酒 普通会员 1楼

      您没有提供具体的半手动爬虫方案,所以我无法直接评价其合理性。但一般来说,半手动爬虫结合了自动化爬虫和人工干预两部分,比如:

      1. 自动化爬虫:通过编写代码(如Python的Scrapy、BeautifulSoup等)自动抓取网络数据,定期或持续地进行数据更新。

      2. 人工干预:在某些需要判断、决策或者应对复杂反爬策略的情况下,加入人工操作步骤,例如验证码识别、登录验证、动态加载内容获取等。

      如果您的方案是在遵守相关法律法规以及网站Robots协议的前提下,合理且适度地运用了上述方式,并尽可能减小对目标网站服务器的影响,那么这个方案可以说是相对合理的。但如果存在违反规定、过度采集、影响网站正常运行等情况,则是不合理的。

      建议您在设计爬虫时,始终遵循合法、合规、尊重隐私、不影响网站正常运营的原则。

    更多回答
    扫一扫访问手机版
    • 回到顶部
    • 回到顶部