python爬取网站数据(Python爬虫实践)

Python作为一门高级编程语言,它的定位是优雅、明确和简单。我学用python差不多一年时间了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本。这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,故累积了不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了。下面分享一个小案例,实现爬取网站里面的图片,包括源码及实现思路。一、还原手工操作所谓爬取页面图片,正常人手动操作可以分为两步:1.打开页面2.选中图片下载到指定文件夹用代码实现的话可以节省掉每次下载图片的操作,运行代码实现批量下载。二、设计代码实现步骤一:导入相关库操作import urllib #导入urllib包import urllib.request#导入urllib包里的request方法import re #导入re正则库步骤二:定义解析页面 load_page()这个函数实现打开传入的路径并将页面数据读取出来,实现代码,包括发送请求,打开页面,获取数据。代码实现:def load_page(url):request=urllib.request.Request(url)#发送url请求 response=urllib.request.urlopen(request)#打开url网址 data=response.read()#读取页面数据 return data#返回页面数据步骤三:定义get_image()函数首先利用正则表达式匹配图片路径并存到数组中。其次遍历数组实现图片下载操作。代码实现:def get_image(html): regx=r'http://[\S]*jpg' #定义正则匹配公式 pattern=re.compile(regx)#构造匹配模式,速度更快 get_image=re.findall(pattern,repr(html))#repr()将内容转化为字符串形式,findall列表形式展示正则表达式匹配的结果 num=1 #定义变量控制循环 for img in get_image: #定义变量遍历数组 image=load_page(img)#将图片路径传入加载函数 with open('F:\\photo\\%s.jpg'%num,'wb') as fb: #以只读方式打开图片并命名 fb.write(image) #写入内容 print('正在下载第%s张图片'%num) num=num+1 #变量递增 print("下载完成")步骤四:函数调用#调用函数url='http://p.weather.com.cn/2019/10/3248439.shtml' #传入url路径html=load_page(url)#加载页面get_image(html)#图片下载关键单词释义如果第一次接触爬虫代码,相信有几个单词大家很陌生,为了方便记忆我把他们归类到一起加深印象,你也可以拿出一张白纸试着努力回忆着。1.爬虫协议库ulrlib、urllib.request2.正则匹配库rb3.发送请求方法request()4.打开页面方法urlopen()5.读取数据方法read()6.正则表达式-所有图片【\S】*.jpg7.匹配模式定义compile()8.查找匹配findall()9.循环遍历语句 for a in b10.打开文件 并命名 with open()… as fb11.写到… write*()12.输出语句 print()到现在为止可以把我上面的代码在pycharm中打开尝试着运行起来吧!最后,有2个报错信息汇总供参考:1. module 'urllib' has no attribute 'requset'定位到当行语句,发现request 单词拼写错误。2. 没有报错,但是图片没有下载成功重新检查代码,发现正则表达式写的有错误,记住是大写的S修改完之后看效果。我是谁?我是一名从事了多年软件测试的老测试员,今年年初我花了一个月整理了一份最适合2020年学习的软件测试学习干货,可以送给每一位对软件测试感兴趣的小伙伴,想要获取的可以关注我的头条号+私信:【测试】,即可免费获取。

本文出自快速备案,转载时请注明出处及相应链接。

本文永久链接: https://www.175ku.com/38102.html