vlambda博客
学习文章列表

爬虫(2) | 了解HTTP协议

1.什么是http协议?

  • http协议是一个超文本传输协议

  • http协议是一个约束发布和接受html页面的规范

2.端口号

  • http协议端口号:80

  • https协议的端口号:443

3.http协议的特点

  • http协议是一个应用层协议

  • http协议是无状态、无连接的。

    • 每次请求都是独立的。

    • 客户端每次请求都不能记录请求状态,请求与请求之间相互独立,不能通信(cookie和session可以解决通信问题)。

4.url:统一资源定位符

格式:

 <协议>://<IP地址>:<端口号>/<路径>?<参数1=值>&<参数2=值>  例如:http://baidu.com/video/?keyword=美女

为啥可以通过url定位互联网上的任意资源?

  • 端口号:端口号—用来从互联网进入电脑

  • 路径:就是为了在电脑中找到对应的资源路径

三种特殊符号

  • 符号?:问号后面就是请求参数

  • 符号& :请求参数用&连接,例如:?name=zhangsan&age=12

  • 符号# :锚点,锚点就是在请求这个url时,页面会跳入的指定位置

5.http工作过程

  • port:服务器的端口(如果是走协议默认端口,缺省端口80)

  • path:访问资源的路径

  • query-string:参数,发送给http服务器的数据anchor:锚(跳转到网页的指定锚点位置)

(2)封装http请求数据包

(3)封装成TCP包,建立TCP连接(TCP的三次握手)

  • 第一次握手:建立连接时,客户端发送syn包(syn=j)到服务器,并进入SYN_SEND状态,等待服务器确认;SYN:同步序列编号(Synchronize Sequence Numbers)

  • 第二次握手:服务器收到syn包,必须确认客户的SYN(ack=j+1),同时自己也发送一个SYN包(syn=k),即SYN+ACK包,此时服务器进入SYN_RECV状态;

  • 第三次握手:客户端收到服务器的SYN+ACK包,向服务器发送确认包ACK(ack=k+1),此包发送完毕,客户端和服务器进入ESTABLISHED状态,完成三次握手。

  • 完成三次握手,客户端与服务器开始传送数据

(4)客户端发送请求

(5)服务器接收请求,发送响应

(6)服务器关闭tcp连接