博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[python爬虫]爬取贴吧某页美女图片+爬取糗百美女图片
阅读量:6164 次
发布时间:2019-06-21

本文共 1140 字,大约阅读时间需要 3 分钟。

#coding:utf-8import requests,pyquery,urllibimport redef get_html(url):	html=urllib.urlopen(url).read()	return htmldef get_image(html):	reg=r'src="(.*?\.jpg)"'	#html=requests.get(url).read()	result=re.compile(reg)	aim=result.findall(html)	i=0	for imgurl in aim:		urllib.urlretrieve(imgurl,'%s.jpg'%i)		i+=1html=get_html('http://tieba.baidu.com/p/2166231880')print get_image(html)#coding:UTF-8from bs4 import BeautifulSoupimport requestsimport urllibimport reimport osurl='http://www.qiubaichengren.com/'def get_html(url):	html=requests.get(url).text	return htmldef get_image(url):	result=re.compile(r'src="(.*.jpg)"')	i=0	for n in range(1,679):		page_url=url+'%d.html'%n		html=get_html(page_url)		aim=result.findall(html)		for img_url in aim:			urllib.urlretrieve(img_url,"/home/vincebye/Pictures/%s.jpg"%i)			print '\033[0;36;40m'			print "正在下载第"+str(i)+"张图片,请稍等......."			i+=1			print '\033[0m'		if __name__ == '__main__':              get_image(url)

 耗时:1小时30分钟

错误原因:  IndentationError: unexpected indent  --Python及其要求代码格式对齐

                   request对象没有read()方法

                   是将read之后的网页拿去正则匹配

                   正则文法中()里面是我们匹配的目的,括号之外是描述词

 

转载于:https://www.cnblogs.com/vincebye/p/5925339.html

你可能感兴趣的文章
Subversion使用Redmine帐户验证简单应用、高级应用以及优化
查看>>
Javascript Ajax 异步请求
查看>>
DBCP连接池
查看>>
cannot run programing "db2"
查看>>
mysql做主从relay-log问题
查看>>
Docker镜像与容器命令
查看>>
批量删除oracle中以相同类型字母开头的表
查看>>
Java基础学习总结(4)——对象转型
查看>>
BZOJ3239Discrete Logging——BSGS
查看>>
SpringMVC权限管理
查看>>
spring 整合 redis 配置
查看>>
cacti分组发飞信模块开发
查看>>
浅析LUA中游戏脚本语言之魔兽世界
查看>>
飞翔的秘密
查看>>
Red Hat 安装源包出错 Package xxx.rpm is not signed
查看>>
编译安装mysql-5.6.16.tar.gz
查看>>
活在当下
查看>>
每天进步一点----- MediaPlayer
查看>>
PowerDesigner中CDM和PDM如何定义外键关系
查看>>
跨域-学习笔记
查看>>