- 34
- 0
目标网址是weixin.sougou.com,我用浏览器打开的时候,可以看到里面的cookie
IPLOC=CN3100; SUID=392E34313108990A000000005A6E8617; SUV=1517192727982335; ABTEST=0|1517192730|v1; weixinIndexVisited=1; SUIR=565E5B41707513909AD33A1D70375FC3; SMYUV=1517210627888683; SNUID=E3F5EEEBDADFB93C8AA173AFDB9D411E; JSESSIONID=aaaL-gYd8sTx3-YrDqCew
然后我用scrapy去请求,设置meta={'cookiejar':1},查看request的cookie发现
b'ABTEST=0|1517278509|v1; SUID=392E34311E24940A000000005A6FD52D; IPLOC=CN3100'
我看response里面也没有set_cookie
也就是只有一部分的字段,那怎么用scrapy完整的获取cookie字段呢,在setting里面吧default headers设置成为了目前电脑浏览器。
- 共 0 条
- 全部回答
-
梧桐听雨 普通会员 1楼
在Scrapy爬虫开发中,Cookie主要用于处理网站的登录状态、个性化设置等场景。如果你在爬取需要登录或者有Cookie限制的网站时遇到问题,可以按照以下方式处理:
- 获取并设置Cookie:
你可以在登录网站后抓取到浏览器中的Cookie(通常在Network面板中可以看到),然后在Scrapy中通过
Request对象的cookies参数设置。
python cookies = { 'cookie_name1': 'cookie_value1', 'cookie_name2': 'cookie_value2', # ... } yield scrapy.Request(url=url, cookies=cookies, callback=self.parse)- 使用中间件处理Cookie:
Scrapy提供了内置的
CookiesMiddleware来自动处理网页响应中的Set-Cookie头信息,保持会话。确保在settings.py中启用此中间件:
python DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700, }-
自定义Cookie Middleware: 对于更复杂的Cookie管理需求,你可能需要编写自定义的中间件,例如处理动态生成或更新的Cookie。
-
使用session持久化登录: 如果目标网站需要登录才能访问内容,你可以模拟登录过程,将登录后的Cookie保存并应用到后续请求中。
注意:根据《计算机软件保护条例》和相关法律法规,使用爬虫需遵守网站的Robots协议,并尊重网站版权,不得用于非法用途。
- 获取并设置Cookie:
你可以在登录网站后抓取到浏览器中的Cookie(通常在Network面板中可以看到),然后在Scrapy中通过
- 扫一扫访问手机版
回答动态

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题函数计算不同地域的是不能用内网吧?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题在ARMS如何申请加入公测呀?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的,这个init方法在哪里进行添加?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器刚到期,是不是就不能再导出存档了呢?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容 尝试更新怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后 就链接不上了,怎么办?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了,怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了,是什么情况?预计能赚取 0积分收益
- 回到顶部
- 回到顶部
