万象素材 › 万象专栏 › Python专栏

python爬虫从入门到入狱

备注：在本笔记之前需要掌握python基础，以及html页面基础知识

一.urllib

什么是爬虫：

解释1：通过一个程序，根据Url(http://www.taobao.com)进行爬取网页，获取有用信息

解释2：使用程序模拟浏览器，去向服务器发送请求，获取响应信息

爬虫的核心：

1.爬取网页：爬取整个网页包含了网页中所有得内容

2.解析数据：将网页中你得到的数据进行解析

3.难点：爬虫和反爬虫之间的博弈

爬虫用途：

数据分析/人工数据集

社交软件冷启动

舆情监控

竞争对手监控

爬虫分类：

通用爬虫：

搜索引擎等，抓取的数据大部分是无用的。

聚焦爬虫：

功能：

根据需求，实现爬虫程序，抓取需要的数据

设计思路：

1.确定要爬取的url 如何获取Url
2.模拟浏览器通过http协议访问url，获取服务器返回的html代码如何访问
3.解析html字符串（根据一定规则提取需要的数据）
如何解析

反爬手段：

1.User‐Agent：

User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

2.代理IP

西次代理

快代理

什么是高匿名、匿名和透明代理？它们有什么区别？

1.使用透明代理，对方服务器可以知道你使用了代理，并且也知道你的真实IP。

2.使用匿名代理，对方服务器可以知道你使用了代理，但不知道你的真实IP。

3.使用高匿名代理，对方服务器不知道你使用了代理，更不知道你的真实IP。

3.验证码访问打码平台云打码平台超级

更多文章请关注《万象专栏》

转载请注明出处：https://www.wanxiangsucai.com/read/cv3999

话题推荐： #Python#

打赏
7 赞
收藏
评论
举报

下一篇：Python多线程的并发运行与同步问题

发布评论

全部评论(0)