Python – Spider 爬虫技术
urllib 库的使用
模拟浏览器向服务器发送请求
要使用py访问url获取网页源码,我们可以使用urllib包中的request脚本urlopen方法:
from urllib.request import urlopen
# 打开一个网址,并获得其响应对象
url = 'http://www.baidu.com/'
response = urlopen(url)
# 获取响应码
response.getcode()
# 获取请求url
response.geturl()
# 获取所有响应header
response.getheaders()
# 读取一行html源码
response.readline()
# 读取所有行的html源码
response.readlines()
# 读取所有html源码并解码为utf-8
response.read().decode('utf-8')
下载网络资源到文件中
urllib.request.urlretrieve(url=url_page, filename="1.html")
THE END
0
二维码
打赏
海报
Python – Spider 爬虫技术
urllib 库的使用
模拟浏览器向服务器发送请求
要使用py访问url获取网页源码,我们可以使用urllib包中的request脚本urlopen方法:
from urllib.request import urlopen
# 打开一个网址,并……
TZMing花园 - 软件分享与学习
共有 0 条评论