爬虫(2) | 了解HTTP协议
1.什么是http协议?
http协议是一个超文本传输协议
http协议是一个约束发布和接受html页面的规范
2.端口号
http协议端口号:80
https协议的端口号:443
3.http协议的特点
http协议是一个应用层协议
http协议是无状态、无连接的。
每次请求都是独立的。
客户端每次请求都不能记录请求状态,请求与请求之间相互独立,不能通信(cookie和session可以解决通信问题)。
4.url:统一资源定位符
格式:
<协议>://<IP地址>:<端口号>/<路径>?<参数1=值>&<参数2=值>
例如:http://baidu.com/video/?keyword=美女
为啥可以通过url定位互联网上的任意资源?
端口号:端口号—用来从互联网进入电脑
路径:就是为了在电脑中找到对应的资源路径
三种特殊符号
符号?:问号后面就是请求参数
符号& :请求参数用&连接,例如:?name=zhangsan&age=12
符号# :锚点,锚点就是在请求这个url时,页面会跳入的指定位置
5.http工作过程
port:服务器的端口(如果是走协议默认端口,缺省端口80)
path:访问资源的路径
query-string:参数,发送给http服务器的数据anchor:锚(跳转到网页的指定锚点位置)
(2)封装http请求数据包
(3)封装成TCP包,建立TCP连接(TCP的三次握手)
第一次握手:建立连接时,客户端发送syn包(syn=j)到服务器,并进入SYN_SEND状态,等待服务器确认;SYN:同步序列编号(Synchronize Sequence Numbers)
第二次握手:服务器收到syn包,必须确认客户的SYN(ack=j+1),同时自己也发送一个SYN包(syn=k),即SYN+ACK包,此时服务器进入SYN_RECV状态;
第三次握手:客户端收到服务器的SYN+ACK包,向服务器发送确认包ACK(ack=k+1),此包发送完毕,客户端和服务器进入ESTABLISHED状态,完成三次握手。
完成三次握手,客户端与服务器开始传送数据
(4)客户端发送请求
(5)服务器接收请求,发送响应
(6)服务器关闭tcp连接