万象素材 › 万象专栏 › 人工智能专栏

Crawler：爬虫基于urllib.request库实现获取指定网址上的所有图片【图文】

输出结果

Crawler：爬虫基于urllib.request库实现获取指定网址上的所有图片_Crawler

核心代码

# coding=gbk
import urllib.request
import re
import os
import urllib

def getHtml(url):  #指定网址获取函数
    page = urllib.request.urlopen(url)
    html = page.read()
    return html.decode('UTF-8')

def getImg(html):  #定义获取图片函数
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = imgre.findall(html)
    x = 0
    path = r'F:\File_Python\Crawler'  
   # 将图片保存到F:\File_Python\Crawler文件夹中，如果没有Crawler文件夹,将会自动则创建
    if not os.path.isdir(path):  
        os.makedirs(path)  
    paths = path+'\\'     

    for imgurl in imglist:  #打开in集合中保存的imgurl图片网址，循环下载图片保存在本地
        urllib.request.urlretrieve(imgurl,'{}{}.jpg'.format(paths,x))   
        x = x + 1  
    return imglist
html = getHtml("https://tieba.baidu.com/p/2460150866?pn=10")#指定获取图片的网址路径
print (getImg(html))

更多文章请关注《万象专栏》

转载请注明出处：https://www.wanxiangsucai.com/read/cv16638

话题推荐： #Crawler# #人工智能# #爬虫# #其他# #人工智能# #万象人工智能专栏#

打赏
6 赞
收藏
评论
举报

下一篇：四个月内掌握AI快速入门人工智能的关键技能与学习路径

发布评论

全部评论(0)

Crawler：爬虫基于urllib.request库实现获取指定网址上的所有图片【图文】

Crawler：爬虫基于urllib.request库实现获取指定网址上的所有图片【图文】

输出结果

核心代码

相关文章

ROS2、机器人控制器、单片机线上课程【图文】

#yyds干货盘点# 织梦微信分享开发【图文】

dhcp

fabric区块解析【附源码】

财务机器人，财会人的毒药还是解药？【图文】

#yyds干货盘点#利用Matplotlib库画图（六）【图文】

windows系统下安装和使用ROS的解决方案 2019年4月更新(1﻿﻿﻿﻿ win

Web前端培训分享：前端开源平台介绍【图文】

MT61K512M32KPA-16:C显卡D9ZPP芯片GDDR6X【图文】

为什么学完Web前端后薪资如此之高？原因如下【图文】

windows系统下安装和使用ROS的解决方案 2019年4月更新(1 win