vlambda博客
学习文章列表

面试官:怎样理解socket的实现机制

要写网络程序就必须用Socket,这是程序员都知道的。而且,面试的时候,我们也会被问对方会不会Socket编

一般来说,很多人都会说,Socket编程基本就是listen,accept以及send,write等几个基本的操作。是的,就跟常见的文件操作一样,只要写过就一定知道。

对于网络编程,我们也言必称
TCP/IP,似乎其它网络协议已经不存在了。对于TCP/IP,我们还知道TCP和UDP,前者可以保证数据的正确和可靠性,后者则允许数据丢失。



除此,普通的程序员就不会知道太多了,很多时候这些知识已经够用了。最多,写服务程序的时候,会使用多线程来处理并发访问。

我们还知道如下几个事实

  1. 一个指定的端口号不能被多个程序共用。比如,如果IIS占用了80端口,那么Apache就不能也用80端口了。

  2. 很多防火墙只允许特定目标端口的数据包通过。

  3. 服务程序在listen某个端口并accept某个连接请求后,会生成一个新的socket来对该请求进行处理。

问题

于是,好奇心的疑问就来了,经典的四连问。

  • 如果一个socket创建后并与80端口绑定后,是否就意味着该socket占用了80端口呢?

  • 如果是这样的,那么当其accept一个请求后,生成的新的socket到底使用的是什么端口呢(系统会默认给其分配一个空闲的端口号)?

  • 如果是一个空闲的端口,那一定不是80端口了,于是以后的TCP数据包的目标端口就不是80了--防火墙一定会阻止其通过的!实际上,我们可以看到,防火墙并没有阻止这样的连接,而且这是最常见的连接请求和处理方式。然而不解就是,为什么防火墙没有阻止这样的连接?

  • 它是如何判定那条连接是因为connect 80端口而生成的?是不是TCP数据包里有什么特别的标志?或者防火墙记住了什么东西?


分析
带着这些问题,我们再来了解TCP/IP协议栈的原理。

TCP和UDP同属于传输层,共同架设在IP层(网络层)之上。而IP层主要负责的是在节点之间(End to End)的数据包传送,这里的节点是一台网络设备,比如计算机。因为IP层只负责把数据送到节点,而不能区分上面的不同应用,所以TCP和UDP协议在其基础上加入了端口的信息,端口于是标识的是一个节点上的一个应用。


所谓accept函数,其实抽象的是TCP的连接建立过程。accept函数返回的新socket其实指代的是本次创建的连接,而一个连接是包括两部分信息的,一个是源IP和源端口,另一个是宿IP和宿端口。

所以,accept可以产生多个不同的socket,而这些socket里包含的宿IP和宿端口是不变的,变化的只是源IP和源端口。这样的话,这些socket宿端口就可以都是80,而Socket层还是能根据源/宿对来准确地分辨出IP包和socket的归属关系,从而完成对TCP/IP协议的操作封装!而同时,放火墙的对IP包的处理规则也是清晰明了,不存在前面设想的种种复杂的情形。

总结
明白socket只是对
TCP/IP协议栈操作的抽象,而不是简单的映射关系,这很重要!


END