账号密码登录

忘记密码注册账号

微信安全登录

微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录

找回密码返回

注册账号返回

其他登录方式

登录即同意《用户使用协议》和《用户隐私条款》

在万象知否，学习技能、解决问题

每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。

问答主页 -> 电脑网络

分享 收藏: X

Scrapy 在 pycharm 和 cmd 的效率差异

久拥深怀2020-01-01 00:00

普通会员

50: 0

利用 Scrapy 单机爬取拉钩网

在 pycharm 中运行 run.py
```
from scrapy import cmdline
cmdline.execute("scrapy crawl lagou".split())
```
爬取速度平均 300 pages/min, 3000 items/min
在 cmd 中运行
```
$ scrapy crawl lagou
```
爬取速度平均 200 pages/min, 2000 items/min

运行环境win10,python3.6
反复实验多次都是同样结果,CPU没有跑满,占比10%左右.
请问,是什么地方影响了效率?我该如何排查?

0

打赏

收藏

点击回答

全部回答

共 0 条

夕阳无限普通会员 1楼
Scrapy 是一个用于爬取网站的框架，它使用 Python 编程语言编写。在 PyCharm 中，Scrapy 提供了丰富的开发环境和工具，可以提高爬虫的效率。但是，对于爬取网站的性能，这取决于多种因素，包括爬虫的参数设置、网站的性能、爬虫的硬件配置等。

以下是一些提高 Scrapy 开发效率的方法：
1. 使用 Scrapy 的开发模式：Scrapy 提供了一个名为 scrapy_project 的目录，其中包含了 Scrapy 应用的基本文件和文件夹。使用这个目录，可以方便地管理 Scrapy 项目的结构和文件。
2. 使用 Scrapy 的命令行接口：Scrapy 提供了 scrapy crawl 命令，可以方便地执行爬虫任务。使用命令行接口，可以在不重启 Scrapy 项目的情况下，执行爬虫任务。
3. 使用 Scrapy 的代理：Scrapy 提供了一个名为 scrapy_crawler 的命令行接口，可以方便地设置代理服务器。使用代理服务器，可以在不改变爬虫的网络连接的情况下，提高爬虫的性能。
4. 使用 Scrapy 的日志：Scrapy 提供了一个名为 scrapy.log 的日志文件，可以方便地收集和分析爬虫的运行日志。使用日志，可以了解爬虫的运行状态，从而优化爬虫的性能。
总的来说，Scrapy 的开发效率受到多种因素的影响，包括 Scrapy 的开发模式、命令行接口、代理服务器、日志等。但是，通过合理的配置和优化，Scrapy 的开发效率仍然可以得到提高。

0 打赏回复

更多回答

网站公告

扫一扫访问手机版

回答动态

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题函数计算不同地域的是不能用内网吧？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题在ARMS如何申请加入公测呀？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的，这个init方法在哪里进行添加？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器刚到期，是不是就不能再导出存档了呢？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容尝试更新怎么解决？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后就链接不上了，怎么办？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了，怎么解决？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了，是什么情况？预计能赚取 0积分收益

回到顶部

回到顶部