vlambda博客
学习文章列表

TCP协议:如何保证页面文件能被完整送达浏览器?




正文

衡量Web页面性能的时候一个重要的指标叫“FB(Firts Paint)”,是指页面加载到 首次开始绘制的时长。这个指标直接影响了用户的跳出率,更快的页面响应意味着更多的 PV(Page View)、 更高的参与度,以及更高的转化率。而影响FP指标的重要因素是网络加载速度。

要优化Web页面的加载速度,不免需要对网络协议有深刻的认识,所以不管使用的HTTP、还是 WebSocket,都是基于TCP/IP的,借助TCP/IP的设计思想则更能清楚的定位Web问题和处理性能。

在网络中,一个文件通常会被拆分为很多数据包来进行传输,而数据包在传输过程中又有很大概率丢失或者出错。 那么如何保证页面文件能被完整地送达浏览器呢?

一个数据包的“旅程”

下面将分别从“数据包如何送达主机”“主机如何将数据包转交给应用”和“数据是如何被完整地送达应用程序” 这三个角度来为你讲述数据的传输过程。

互联网,实际上是一套理念和协议组成的体系架构。其中,协议是一套众所周知的规则和标准, 如果各方都同意使用,那么它们之间的通信将变得毫无障碍。

互联网中的数据是通过数据包来传输的。如果发送的数据很大,那么该数据就会被拆分为很多小数据包来传输。比如你现在听的音频数据等。

IP(网络协议):把数据包送达目的主机

简化版IP网络三层传输模型:

TCP协议:如何保证页面文件能被完整送达浏览器?

  • 上层将含有“极客时间”的数据包交给网络层;

  • 网络层再将 IP 头附加到数据包上,组成新的 IP 数据包,并交给底层;

  • 底层通过物理网络将数据包传输给主机 B;

  • 数据包被传输到主机 B 的网络层,在这里主机 B 拆开数据包的 IP 头信息,并将拆开来的数据部分交给上层;

  • 最终,含有“极客时间”信息的数据包就到达了主机 B 的上层了。

UDP(用户数据包协议):把数据包送达应用程序

IP 是非常底层的协议,只负责把数据包传送到对方电脑,但是对方电脑并不知道把数据包交给哪个程序,是交给浏览器还是交给王者荣耀?因此,需要基于 IP 之上开发能和应用打交道的协议,最常见的是“用户数据包协议(User Datagram Protocol)”,简称 UDP。

简化的UDP网络四层传输模型:

TCP协议:如何保证页面文件能被完整送达浏览器?

一个数据包从主机A到主机B的路线:

  • 上层将含有“极客时间”的数据包交给传输层;

  • 传输层会在数据包前面附加上UDP 头,组成新的 UDP 数据包,再将新的 UDP 数据包交给网络层;

  • 网络层再将 IP 头附加到数据包上,组成新的 IP 数据包,并交给底层;

  • 数据包被传输到主机 B 的网络层,在这里主机 B 拆开 IP 头信息,并将拆开来的数据部分交给传输层;

  • 在传输层,数据包中的 UDP 头会被拆开,并根据 UDP 中所提供的端口号,把数据部分交给上层的应用程序;

  • 最终,含有“极客时间”信息的数据包就旅行到了主机 B 上层应用程序这里。

在使用 UDP 发送数据时,有各种因素会导致数据包出错,虽然 UDP 可以校验数据是否正确,但是对于错误的数据包, UDP 并不提供重发机制,只是丢弃当前的包,而且 UDP 在发送之后也无法知道是否能达到目的地。

虽说 UDP 不能保证数据可靠性,但是传输速度却非常快,所以 UDP 会应用在一些关注速度、但不那么严格要求 数据完整性的领域,如在线视频、互动游戏等。

TCP(传输控制协议):把数据完整的送达应用程序

对于浏览器请求,或者邮件这类要求数据传输可靠性(reliability)的应用,如果使用 UDP 来传输会存在两个问题:

  • 数据包在传输过程中容易丢失;

  • 大文件会被拆分成很多小的数据包来传输,这些小的数据包会经过不同的路由,并在不同的时间到达接收端, 而 UDP 协议并不知道如何组装这些数据包,从而把这些数据包还原成完整的文件。

基于此,引入了TCP。TCP(传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信 协议。相比于UDP,TCP的特点为:

  • 对于数据包丢失的情况,TCP提供重传机制;

  • TCP引入了数据包排序机制,用来保证把乱序的数据包组合成一个完整的文件。

和 UDP 头一样,TCP 头除了包含了目标端口和本机端口号外,还提供了用于排序的序列号,以便接收端通过序号来重排数据包。

简化版的TCP网络四层传输模型:


TCP 单个数据包的传输流程和 UDP 流程差不多,不同的地方在于,通过 TCP 头的信息保证了一块大的数据传输的完整性。

TCP是如何保证重传机制和数据包的排序功能的呢?

个完整的 TCP 连接的生命周期包括了“建立连接”“传输数据”和“断开连接”三个阶段。

TCP协议:如何保证页面文件能被完整送达浏览器?

  • 首先,建立连接阶段。这个阶段是通过“三次握手”来建立客户端和服务器之间的连接。TCP 提供面向连接的通信传输。面向连接是指在数据通信开始之前先做好两端之间的准备工作。所谓三次握手,是指在建立一个 TCP 连接时,客户端和服务器总共要发送三个数据包以确认连接的建立。

  • 其次,传输数据阶段。在该阶段,接收端需要对每个数据包进行确认操作, 也就是接收端在接收到数据包之后,需要发送确认数据包给发送端。所以当发送端发送了一个数据包之后, 在规定时间内没有接收到接收端反馈的确认消息,则判断为数据包丢失,并触发发送端的重发机制。同样,一个大的文件在传输过程中会被拆分成很多小的数据包,这些数据包到达接收端后, 接收端会按照 TCP 头中的序号为其排序,从而保证组成完整的数据。

  • 最后,断开连接阶段。数据传输完毕之后,就要终止连接了,涉及到最后一个阶段“四次挥手” 来保证双方都能断开连接。

TCP 为了保证数据传输的可靠性,牺牲了数据包的传输速度,因为“三次握手”和“数据包校验机制”等把传输过程中的数据包的可靠性提高了。

总结

  • 互联网中的数据是通过数据包来传输的,数据包在传输过程中容易丢失或出错。

  • IP(网络协议:Internet Protocol) 负责把数据包送达目的主机。

  • UDP(用户数据包协议:User Datagram Protocol) 负责把数据包送达具体应用。

  • 而 TCP(传输控制协议:Transmission Control Protocol) 保证了数据完整地传输,它的连接可分为三个阶段:建立连接、传输数据和断开连接。


文章主要来源于极客时间李兵老师的《浏览器工作原理与实践》,个人通过技术笔记的形式记录加深 对文章的印象,也推荐大家通过以下二维码订阅阅读。