爬取数据-urllib———–第一个爬虫程序

1.获取网页信息

from urllib.request import urlopen
response = urlopen("http://www.baidu.com")
#读取内容  设置编码默认utf - 8
print (response.read().decide())

2.常用的方法

request.urlopen(url,data,timeout)

  • 第一个参数为url,第二个为data时访问URL时要传送的数据,第三个时设置超时实际
  • 第二三个参数可以不传送,data默认为空None,timeout默认设置为socket.GLOBAL_DEFAULT_TIMEOUT
  • 第一个参数时必须要传送的

response.read()

  • read()方法读取文件的全部内容,返回bytes类型
from urllib.request import urlopen

#要访问的地址
url = 'http://www.baidu.com'
#发送请求
response =   urlopen(url)

#读取内容
info = response.read()
#打印返回内容
#print (info)

#转换编码
#print (info.decode())

#返回HTTP的响应码  404返回错误
print (response.getcode())
# 返回实际访问的url
print (response.geturl())
#返回HTTP响应头
print (response.info())
#保存内容

 

文章已创建 80

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部