Crawler:基于urllib库+实现爬虫有道翻译

 

 

目录

输出结果

设计思路

实现步骤


 

 

 

 

输出结果

后期更新……

 

 

设计思路

  • 第一步:首先要知道,data里面的内容是都需要在代码中发送给服务器的。
  • 第二步:理解反爬虫机制,找出加密参数。大多数网站的反爬虫的机制是对向服务器提交表单的动态值进行加密,所以,我们每翻译一次,就观察data里面有哪些参数是动态变化的。从这个网址来看,参数salt、sign对应的值是动态变化。
  • 第三步:找出动态参数的实现方式。根据反爬虫经验可知,一般网站生成的反爬加密值都是采用的时间戳,以及将一下字符串使用加密算法加密一下,我们可以从网页源代码中进行查找理解。

 

实现步骤

点击有道翻译网页源代码,查看NetWork栏下的相关数据的相关参数:
依次提取url、User-Agent、data
url = 
head['User-Agent']=
data =

Crawler:基于urllib库+实现爬虫有道翻译_人工智能

Crawler:基于urllib库+实现爬虫有道翻译_人工智能_02

Crawler:基于urllib库+实现爬虫有道翻译_Crawler_03

 

 

更多文章请关注《万象专栏》