03月21, 2019

【爬虫】初识http

HTTP(HyperText Transfer Protocol)超文本传输协议 http://blog.leanote.com/qq-alan 协议名:http 主机名:blog.leanote.com 端口:80 路径/qq-alan 我们浏览器去浏览网页时,会封装请求(用的什么浏览器、请求方式GET,POST等),到了服务器那里,服务器接收到请求之后,会返回回来对应的response(响应结果,包括状态码、返回体之类的),我们浏览器再去解析这个响应结果,排版润色后展现在浏览器中给我们看。 举个例子: 我们买到了周杰伦的演唱会门票(blog.leanote.com),每个人门票上都有区域号(端口)、座位号(/qq-alan),我们进去看演唱会,每个人看到的角度都不一样(座位不一样,访问页面不一样)我们眼睛和耳朵接收到外界信息润色后返回给大脑(浏览器润色后给我们看)。

爬虫是什么

从名字上来看,爬取网页的虫子。在各大搜索引擎公司,爬虫是个很重要的部门,爬虫每天爬取数以亿计的网页,供搜索引擎使用,他们当然不是用打开浏览器,右键另存为的方式来爬取网页的(那得累死)。他们用爬虫伪装成真实用户的浏览器,去请求各个网站,爬取网页信息。 还是那个例子: 临时有事,没法去了,托人放个录影机进去,你该忙你的忙你的,录完了拿回来自己重温演唱会,这个录影机就是爬虫。

第一个爬虫

import urllib2  
res = urllib2.urlopen('http://blog.leanote.com/qq-alan')  
ret = res.read()  
print ret

本文链接:http://www.yuqiaochuang.com/post/【爬虫】初识http.html

-- EOF --

Comments

""