- 50
- 0
利用 Scrapy 单机爬取拉钩网
-
在 pycharm 中运行 run.py
from scrapy import cmdline cmdline.execute("scrapy crawl lagou".split())爬取速度 平均 300 pages/min, 3000 items/min
-
在 cmd 中运行
$ scrapy crawl lagou爬取速度 平均 200 pages/min, 2000 items/min
运行环境win10,python3.6
反复实验多次都是同样结果,CPU没有跑满,占比10%左右.
请问,是什么地方影响了效率?我该如何排查?
- 共 0 条
- 全部回答
-
夕阳无限 普通会员 1楼
Scrapy 是一个用于爬取网站的框架,它使用 Python 编程语言编写。在 PyCharm 中,Scrapy 提供了丰富的开发环境和工具,可以提高爬虫的效率。但是,对于爬取网站的性能,这取决于多种因素,包括爬虫的参数设置、网站的性能、爬虫的硬件配置等。
以下是一些提高 Scrapy 开发效率的方法:
-
使用 Scrapy 的开发模式:Scrapy 提供了一个名为
scrapy_project的目录,其中包含了 Scrapy 应用的基本文件和文件夹。使用这个目录,可以方便地管理 Scrapy 项目的结构和文件。 -
使用 Scrapy 的命令行接口:Scrapy 提供了
scrapy crawl命令,可以方便地执行爬虫任务。使用命令行接口,可以在不重启 Scrapy 项目的情况下,执行爬虫任务。 -
使用 Scrapy 的代理:Scrapy 提供了一个名为
scrapy_crawler的命令行接口,可以方便地设置代理服务器。使用代理服务器,可以在不改变爬虫的网络连接的情况下,提高爬虫的性能。 -
使用 Scrapy 的日志:Scrapy 提供了一个名为
scrapy.log的日志文件,可以方便地收集和分析爬虫的运行日志。使用日志,可以了解爬虫的运行状态,从而优化爬虫的性能。
总的来说,Scrapy 的开发效率受到多种因素的影响,包括 Scrapy 的开发模式、命令行接口、代理服务器、日志等。但是,通过合理的配置和优化,Scrapy 的开发效率仍然可以得到提高。
-
- 扫一扫访问手机版
回答动态

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题函数计算不同地域的是不能用内网吧?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题在ARMS如何申请加入公测呀?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的,这个init方法在哪里进行添加?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器刚到期,是不是就不能再导出存档了呢?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容 尝试更新怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后 就链接不上了,怎么办?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了,怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了,是什么情况?预计能赚取 0积分收益
- 回到顶部
- 回到顶部
