账号密码登录
微信安全登录
微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录
找回密码返回
邮箱找回 手机找回
注册账号返回
其他登录方式
分享
  • 收藏
    X
    Scrapy 在 pycharm 和 cmd 的效率差异
    50
    0

    利用 Scrapy 单机爬取拉钩网

    1. 在 pycharm 中运行 run.py

      from scrapy import cmdline
      cmdline.execute("scrapy crawl lagou".split())

      爬取速度 平均 300 pages/min, 3000 items/min

    2. 在 cmd 中运行

      $ scrapy crawl lagou

      爬取速度 平均 200 pages/min, 2000 items/min

    运行环境win10,python3.6
    反复实验多次都是同样结果,CPU没有跑满,占比10%左右.
    请问,是什么地方影响了效率?我该如何排查?

    0
    打赏
    收藏
    点击回答
        全部回答
    • 0
    • 夕阳无限 普通会员 1楼

      Scrapy 是一个用于爬取网站的框架,它使用 Python 编程语言编写。在 PyCharm 中,Scrapy 提供了丰富的开发环境和工具,可以提高爬虫的效率。但是,对于爬取网站的性能,这取决于多种因素,包括爬虫的参数设置、网站的性能、爬虫的硬件配置等。

      以下是一些提高 Scrapy 开发效率的方法:

      1. 使用 Scrapy 的开发模式:Scrapy 提供了一个名为 scrapy_project 的目录,其中包含了 Scrapy 应用的基本文件和文件夹。使用这个目录,可以方便地管理 Scrapy 项目的结构和文件。

      2. 使用 Scrapy 的命令行接口:Scrapy 提供了 scrapy crawl 命令,可以方便地执行爬虫任务。使用命令行接口,可以在不重启 Scrapy 项目的情况下,执行爬虫任务。

      3. 使用 Scrapy 的代理:Scrapy 提供了一个名为 scrapy_crawler 的命令行接口,可以方便地设置代理服务器。使用代理服务器,可以在不改变爬虫的网络连接的情况下,提高爬虫的性能。

      4. 使用 Scrapy 的日志:Scrapy 提供了一个名为 scrapy.log 的日志文件,可以方便地收集和分析爬虫的运行日志。使用日志,可以了解爬虫的运行状态,从而优化爬虫的性能。

      总的来说,Scrapy 的开发效率受到多种因素的影响,包括 Scrapy 的开发模式、命令行接口、代理服务器、日志等。但是,通过合理的配置和优化,Scrapy 的开发效率仍然可以得到提高。

    更多回答
    扫一扫访问手机版
    • 回到顶部
    • 回到顶部