vlambda博客
学习文章列表

借助多容器Pod,轻松扩展K8S中的应用

Kubernetes提供了巨大的灵活性和运行各种应用的能力。如果你的应用是云原生微服务或12要素(12-factor)应用,那么在Kubernetes中运行它们有可能会相对简单。


但是,运行那些没有明确设计为在容器化环境中运行的应用程序呢?Kubernetes也可以处理这些问题,但是设置起来可能会比较麻烦。


Kubernetes提供的最强大的工具之一是多容器pod(尽管多容器pod在各种情况下对云原生应用也很有用)。为什么要在一个 pod 中运行多个容器?因为多容器pod可以让你在不改变其代码的情况下更改应用程序的行为。


这在各种情况下都很有用,特别是对于那些最初没有被设计成在容器中运行的应用程序来说,这很方便。我们来看看一个例子。



确保HTTP服务的安全


Elasticsearch是在容器流行之前诞生的(当然现在在Kubernetes中运行也十分简单),它可以看成在虚拟机中运行的传统Java应用的替代。


我们将Elasticsearch作为示例应用程序,然后使用多容器pods来增强它。


以下是十分基本的(非生产环境就绪)Elasticsearch Deployment和服务:


apiVersion: apps/v1kind: Deploymentmetadata:name: elasticsearchspec:selector:matchLabels:app.kubernetes.io/name: elasticsearchtemplate:metadata:labels:app.kubernetes.io/name: elasticsearchspec:containers:- name: elasticsearchimage: elasticsearch:7.9.3env:- name: discovery.typevalue: single-nodeports:- name: httpcontainerPort: 9200---apiVersion: v1kind: Servicemetadata:name: elasticsearchspec:selector:app.kubernetes.io/name: elasticsearchports:- port: 9200targetPort: 9200


discovery.type环境变量是让它以单个副本运行的必要条件。


Elasticsearch默认通过HTTP端口9200进行监听。你可以通过在集群中运行另一个Pod并curlelasticsearch服务来确认pod工作。


kubectl run -it --rm --image=curlimages/curl curl \ -- curl http://elasticsearch:9200{"name" : "elasticsearch-77d857c8cf-mk2dv","cluster_name" : "docker-cluster","cluster_uuid" : "z98oL-w-SLKJBhh5KVG4kg","version" : {"number" : "7.9.3","build_flavor" : "default","build_type" : "docker","build_hash" : "c4138e51121ef06a6404866cddc601906fe5c868","build_date" : "2020-10-16T10:36:16.141335Z","build_snapshot" : false,"lucene_version" : "8.6.2","minimum_wire_compatibility_version" : "6.8.0","minimum_index_compatibility_version" : "6.0.0-beta1" },"tagline" : "You Know, for Search"}


现在,假设你正在向零信任安全模式发展,你需要对网络上的所有流量进行加密。如果应用程序没有原生的TLS支持,你会如何去做?


近期版本的Elasticsearch支持TLS,但它在之前很长一段时间内是一个付费功能。


我们首先想到的可能是用nginx ingress做TLS终止,因为ingress是集群中路由外部流量的组件。但这并不能满足要求,因为ingress pod和Elasticsearch pod之间的流量可能会在未加密的情况下通过网络。


外部流量被路由到Ingress,然后路由到Pod


借助多容器Pod,轻松扩展K8S中的应用

如果你在Ingress终止TLS,剩下的流量将不会加密。


一个能满足要求的解决方案是在pod上加一个nginx代理容器,通过TLS进行监听。从用户到Pod的一路流量都是加密的。


借助多容器Pod,轻松扩展K8S中的应用

如果在pod中包含一个代理容器,你可以在Nginx pod中终止TLS。


借助多容器Pod,轻松扩展K8S中的应用

当你比较当前的设置时,你可以注意到,在Elasticsearch容器之前,流量一直是加密的。


以下是部署的情况:


apiVersion: apps/v1kind: Deploymentmetadata:name: elasticsearchspec:selector:matchLabels:app.kubernetes.io/name: elasticsearchtemplate:metadata:labels:app.kubernetes.io/name: elasticsearchspec:containers:- name: elasticsearchimage: elasticsearch:7.9.3env:- name: discovery.typevalue: single-node- name: network.hostvalue: 127.0.0.1- name: http.portvalue: '9201'- name: nginx-proxyimage: nginx:1.19.5volumeMounts:- name: nginx-configmountPath: /etc/nginx/conf.dreadOnly: true- name: certsmountPath: /certsreadOnly: trueports:- name: httpscontainerPort: 9200volumes:- name: nginx-configconfigMap:name: elasticsearch-nginx- name: certssecret:secretName: elasticsearch-tls---apiVersion: v1kind: ConfigMapmetadata:name: elasticsearch-nginxdata:elasticsearch.conf: |server {listen 9200 ssl;server_name elasticsearch;ssl_certificate /certs/tls.crt;ssl_certificate_key /certs/tls.key;
location / {proxy_pass http://localhost:9201;}}


让我们来解读一下:


  • Elasticsearch在端口9201上监听localhost,而不是默认的0.0.0.0:9200(那是network.hosthttp.port环境变量的作用)。


  • 新的nginx-proxy容器通过HTTPS在9200端口监听,并在9201端口代理请求到Elasticsearch。(elasticsearch-tls secret包含TLS证书和密钥,例如可以用cert-manager生成)。


所以来自pod外部的请求会通过HTTPS进入9200端口的Nginx,然后转发到9201端口的Elasticsearch。


借助多容器Pod,轻松扩展K8S中的应用


你可以通过在集群内发出HTTPS请求来确认它是否可以正常工作。


kubectl run -it --rm --image=curlimages/curl curl \ -- curl -k https://elasticsearch:9200{"name" : "elasticsearch-5469857795-nddbn","cluster_name" : "docker-cluster","cluster_uuid" : "XPW9Z8XGTxa7snoUYzeqgg","version" : {"number" : "7.9.3","build_flavor" : "default","build_type" : "docker","build_hash" : "c4138e51121ef06a6404866cddc601906fe5c868","build_date" : "2020-10-16T10:36:16.141335Z","build_snapshot" : false,"lucene_version" : "8.6.2","minimum_wire_compatibility_version" : "6.8.0","minimum_index_compatibility_version" : "6.0.0-beta1" },"tagline" : "You Know, for Search"}


对于自签名的TLS证书,-k版本是必要的。在生产环境中,你需要使用可信的证书。


快速查看日志,显示该请求通过了Nginx代理:


kubectl logs elasticsearch-5469857795-nddbn nginx-proxy | grep curl10.88.4.127 - - [26/Nov/2020:02:37:07 +0000] "GET / HTTP/1.1" 200 559 "-" "curl/7.73.0-DEV" "-"


你也可以检查你是否无法通过未加密的连接连接到Elasticsearch:


kubectl run -it --rm --image=curlimages/curl curl \ -- curl http://elasticsearch:9200<html><head><title>400 The plain HTTP request was sent to HTTPS port</title></head><body><center><h1>400 Bad Request</h1></center><center>The plain HTTP request was sent to HTTPS port</center><hr><center>nginx/1.19.5</center></body></html>


你已经强制执行了TLS,而无需接触Elasticsearch代码或容器镜像。


代理容器是一种常见的模式



在pod中添加代理容器的做法很常见,以至于它有一个名字:Ambassador模式。



添加基本的TLS支持只是一个开始。这里有一些其他的事情你可以用Ambassador模式来做:


  • 如果你想让集群中的所有流量都用TLS证书加密,你可能会在集群中的每个pod中安装一个nginx(或其他)代理。你甚至可以更进一步,使用相互TLS来确保所有的请求都是经过认证以及加密的。(这是Istio和Linkerd等服务网格使用的主要方法)。

  • 你可以使用代理来确保集中的OAuth授权通过验证jwts来认证所有请求。例如,gcp-iap-auth,它可以验证请求是否被GCP Identity-Aware Proxy认证。

  • 你可以通过安全隧道连接到外部数据库。这对于那些没有内置TLS支持的数据库来说尤其方便(比如旧版本的Redis)。


多容器pod的工作原理


我们先来了解Kubernetes上pod和容器之间的区别,以便更好地了解其底层是如何工作的。


一个传统的容器(例如由docker run启动的容器)提供了几种形式的隔离:


  • 资源隔离(如,内存限制)

  • 进程隔离

  • Filesystem和挂载隔离

  • 网络隔离


Docker还有其他一些设置,但这些是最主要的。


底层使用的工具是Linux命名空间和控制组(cgroups)。


控制组是一种用来限制资源的便捷方法,比如一个特定进程可以使用的CPU或内存。例如,你可以说你的进程应该只使用2GB的内存和4个CPU核心中的一个。


命名空间则负责隔离进程以及限制该进程能看到的东西。例如,进程只能看到与它直接相关的网络数据包,它无法看到流经网络适配器的所有网络数据包。或者你可以隔离filesystem,让进程相信它可以访问所有的filesystem。


借助多容器Pod,轻松扩展K8S中的应用

从内核5.6版本开始,有八种命名空间,挂载命名空间是其中之一


借助多容器Pod,轻松扩展K8S中的应用

有了挂载命名空间,你可以让进程认为它可以访问主机上的所有目录,而事实上它并没有


借助多容器Pod,轻松扩展K8S中的应用

挂载命名空间被设计为隔离资源——在本例中是filesystem。


借助多容器Pod,轻松扩展K8S中的应用

每个进程都可以看到同一个filesystem,同时还可以与其他进程隔离


如果你需要复习一下cgroups和namespaces,这里有一篇很好的博客文章,深入探讨了一些技术细节:

https://jvns.ca/blog/2016/10/10/what-even-is-a-container/


在Kubernetes上,容器提供了所有形式的隔离,除了网络隔离。网络隔离发生在pod层面。换句话说,一个pod中的每个容器都会有自己的filesystem、进程表等,但它们都会共享同一个网络命名空间。


让我们来看看一个简单pod容器,以更好地了解它是如何工作的。


apiVersion: v1kind: Podmetadata:name: podtestspec:containers:- name: c1image: busyboxcommand: ['sleep', '5000']volumeMounts:- name: sharedmountPath: /shared- name: c2image: busyboxcommand: ['sleep', '5000']volumeMounts:- name: sharedmountPath: /sharedvolumes:- name: sharedemptyDir: {}


我们将上面的代码段拆解一下:


  • 有两个容器,这两个容器都会沉睡一段时间。

  • 有一个emptyDir卷,它本质上是一个临时的本地卷,在pod的生命周期内持续存在。

  • emptyDir卷安装在每个pod中的/shared目录下。


你可以使用kubectl exec看到卷被挂载在第一个容器上:


kubectl exec -it podtest --container c1 -- sh


该命令将终端会话连接到podtest pod中的容器c1


kubectl exec--container选项通常缩写为-c


mount | grep shared/dev/vda1 on /shared type ext4 (rw,relatime)


如你所见,一个卷挂载在/shared上——这就是我们之前创建的shared卷。现在我们来创建一些文件:


echo "foo" > /tmp/fooecho "bar" > /shared/bar


我们从第二个容器中检查相同的文件。首先连接到它:


kubectl exec -it podtest --container c2 -- sh


cat /shared/barbarcat /tmp/foocat: can't open '/tmp/foo': No such file or directory


如你所见,在shared目录中创建的文件在两个容器上都是可用的,但/tmp中的文件却不可用。这是因为除了卷之外,容器的filesysytem之间是完全隔离的。


现在我们来看看网络和进程隔离。一个很好的方法是使用命令ip link来查看网络是如何设置的,它可以显示Linux系统的网络设备。让我们在第一个容器中执行这个命令:


kubectl exec -it podtest -c c1 -- ip link1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00178: eth0@if179: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1450 qdisc noqueuelink/ether 46:4c:58:6c:da:37 brd ff:ff:ff:ff:ff:ff


在另一个容器中执行同样的命令:


kubectl exec -it podtest -c c2 -- ip link1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00178: eth0@if179: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1450 qdisc noqueuelink/ether 46:4c:58:6c:da:37 brd ff:ff:ff:ff:ff:ff


你可以看到两个容器都有:


  • 相同的设备eth0



现在让我们来看看网络共享的操作吧!我们先连接到第一个容器:


ubectl exec -it podtest -c c1 -- sh


借助nc启动一个简单的网络监听器:


nc -lk -p 5000 127.0.0.1 -e 'date'


该命令在端口5000的localhost上启动一个监听器,并向任何连接的TCP客户端输入date命令。


那么第二个容器可以连接到它吗?


使用以下命令在第二个容器中打开终端:


kubectl exec -it podtest -c c2 -- sh


现在你可以验证第二个容器可以连接到该网络监听器,但不能看到nc进程:


telnet localhost 5000Connected to localhostSun Nov 29 00:57:37 UTC 2020Connection closed by foreign host
ps auxPID USER TIME COMMAND1 root 0:00 sleep 500073 root 0:00 sh81 root 0:00 ps aux


通过telnet连接,可以看到date的输出,证明nc监听器在工作,但是ps aux(显示容器上的所有进程)根本没有显示nc。这是因为pod内的容器有进程隔离,但没有网络隔离。这就解释了Ambassador模式的工作原理:


  • 由于所有的容器都共享同一个网络命名空间,所以一个容器可以监听所有的连接——甚至是外部的连接。

  • 其余的容器只接受来自localhost的连接——拒绝任何外部连接。


接收外部流量的容器就是Ambassador,因此该模式也被称为Ambassador模式。


借助多容器Pod,轻松扩展K8S中的应用


不过有一点很关键,要记住:因为网络命名空间是共享的,所以一个pod中的多个容器不能在同一个端口监听。


让我们来看看多容器pod的一些其他用例。



使用标准接口暴露指标

假设你已经标准化地使用Prometheus来监控Kubernetes集群中的所有服务,但你使用的一些应用程序并没有原生导出Prometheus指标(如,Elasticsearch)。


你能在不改变你的应用程序代码的情况下,将Prometheus指标添加到你的pod中吗?事实上,你可以,使用Adapter模式。


对于Elasticsearch的例子,让我们在pod中添加一个 "exporter"容器,以Prometheus格式暴露各种Elasticsearch指标。


这并不困难,因为有一个Elasticsearch的开源exporter(你还需要将相关端口添加到服务中):


apiVersion: apps/v1kind: Deploymentmetadata:name: elasticsearchspec:selector:matchLabels:app.kubernetes.io/name: elasticsearchtemplate:metadata:labels:app.kubernetes.io/name: elasticsearchspec:containers:- name: elasticsearchimage: elasticsearch:7.9.3env:- name: discovery.typevalue: single-nodeports:- name: httpcontainerPort: 9200- name: prometheus-exporterimage: justwatch/elasticsearch_exporter:1.1.0args:- '--es.uri=http://localhost:9200'ports:- name: http-prometheuscontainerPort: 9114---apiVersion: v1kind: Servicemetadata:name: elasticsearchspec:selector:app.kubernetes.io/name: elasticsearchports:- name: httpport: 9200targetPort: http- name: http-prometheusport: 9114targetPort: http-prometheus


一旦应用了这个功能,你就可以在9114端口找到暴露的指标:


kubectl run -it --rm --image=curlimages/curl curl \ -- curl -s elasticsearch:9114/metrics | head# HELP elasticsearch_breakers_estimated_size_bytes Estimated size in bytes of breaker# TYPE elasticsearch_breakers_estimated_size_bytes gaugeelasticsearch_breakers_estimated_size_bytes{breaker="accounting",name="elasticsearch-ss86j"} 0elasticsearch_breakers_estimated_size_bytes{breaker="fielddata",name="elasticsearch-ss86j"} 0elasticsearch_breakers_estimated_size_bytes{breaker="in_flight_requests",name="elasticsearch-ss86j"} 0elasticsearch_breakers_estimated_size_bytes{breaker="model_inference",name="elasticsearch-ss86j"} 0elasticsearch_breakers_estimated_size_bytes{breaker="parent",name="elasticsearch-ss86j"} 1.61106136e+08elasticsearch_breakers_estimated_size_bytes{breaker="request",name="elasticsearch-ss86j"} 16440# HELP elasticsearch_breakers_limit_size_bytes Limit size in bytes for breaker# TYPE elasticsearch_breakers_limit_size_bytes gauge


再次,你已经能够改变你的应用程序的行为,而无需实际改变你的代码或容器镜像。你已经暴露了标准化的Prometheus指标,这些指标可以被集群范围内的工具(如Prometheus Operator使用),从而实现了应用程序和底层基础设施之间的良好分离。


Tailing logs



接下来,我们来看看Sidecar模式,在这一模式下你可以将容器添加到Pod,该pod可以以某些方式增强应用程序。


Sidecar模式十分通用,可以应用到不同类型的用例中。我们接下来探索以下sidecar的经典用例:log tailing sidecar。


在容器化环境中,最佳实践是始终将日志记录到标准输出,这样可以集中收集和汇总日志。但许多旧的应用程序被设计成日志输出到文件,而改变这一方式并非易事。而添加一个log tailing sidecar意味着你不需要更改原有的方式也可以实现日志的集中收集和汇总。


我们继续以Elasticsearch为例,这可能会有点别扭,因为Elasticsearch容器默认是将日志记录到标准输出的(而且让它记录到文件也不是件容易的事)。


以下是部署情况:


apiVersion: apps/v1kind: Deploymentmetadata:name: elasticsearchlabels:app.kubernetes.io/name: elasticsearchspec:selector:matchLabels:app.kubernetes.io/name: elasticsearchtemplate:metadata:labels:app.kubernetes.io/name: elasticsearchspec:containers:- name: elasticsearchimage: elasticsearch:7.9.3env:- name: discovery.typevalue: single-node- name: path.logsvalue: /var/log/elasticsearchvolumeMounts:- name: logsmountPath: /var/log/elasticsearch- name: logging-configmountPath: /usr/share/elasticsearch/config/log4j2.propertiessubPath: log4j2.propertiesreadOnly: trueports:- name: httpcontainerPort: 9200- name: logsimage: alpine:3.12command:- tail- -f- /logs/docker-cluster_server.jsonvolumeMounts:- name: logsmountPath: /logsreadOnly: truevolumes:- name: logging-configconfigMap:name: elasticsearch-logging- name: logsemptyDir: {}


日志配置文件是一个单独的ConfigMap,因为它太长了所以这里没有包括它。


两个容器共享相同的volume,名为logs。Elasticsearch容器将日志写入该卷,而日志容器只是从相应的文件中读取并输出到标准输出。你可以用kubectl logs指定相应的容器来检索日志流:


kubectl logs elasticsearch-6f88d74475-jxdhl logs | head{"type": "server","timestamp": "2020-11-29T23:01:42,849Z","level": "INFO","component": "o.e.n.Node","cluster.name": "docker-cluster","node.name": "elasticsearch-6f88d74475-jxdhl","message": "version[7.9.3], pid[7], OS[Linux/5.4.0-52-generic/amd64], JVM"}{"type": "server","timestamp": "2020-11-29T23:01:42,855Z","level": "INFO","component": "o.e.n.Node","cluster.name": "docker-cluster","node.name": "elasticsearch-6f88d74475-jxdhl","message": "JVM home [/usr/share/elasticsearch/jdk]"}{"type": "server","timestamp": "2020-11-29T23:01:42,856Z","level": "INFO","component": "o.e.n.Node","cluster.name": "docker-cluster","node.name": "elasticsearch-6f88d74475-jxdhl","message": "JVM arguments […]"}


使用sidecar的好处是,流式传输到标准输出并不是唯一的选择。


如果你需要切换到一个自定义的日志聚合服务,你可以只改变sidecar容器,而无需改变你的应用程序中任何其他东西。


其他sidecar用例



Sidecar有许多用例,日志容器只是其中一个比较简单的用例。


以下是你在其他方面可能用到的一些其他用例:


  • 实时重新加载ConfigMaps,而不需要重新启动pod

  • 将 Hashicorp Vault 中的secret注入到应用程序中

  • 将本地 Redis 实例添加到你的应用程序中,以实现低延迟的内存缓存



准备运行pod


到目前为止,本篇文章所介绍的所有多容器pod的例子都涉及到多个容器同时运行。Kubernetes还提供了运行Init Containers的能力,Init Containers是在 "常规 "容器启动之前运行完成的容器。


这允许你在你的pod正式启动之前运行一个初始化脚本。为什么你希望你的准备工作在一个单独的容器中运行,而不是在你的容器的entrypoint脚本中添加一些初始化?


让我们来看看Elasticsearch的一个实际例子。Elasticsearch文档推荐在生产就绪部署中设置vm.max_map_count的sysctl设置。这在容器化环境中是有问题的,因为没有容器级的sysctl隔离,任何更改都必须发生在节点级。


在不能自定义Kubernetes节点的情况下,如何处理这个问题?


一种方法是在特权容器中运行Elasticsearch,这将使Elasticsearch能够改变其主机节点上的系统设置,并改变entrypoint脚本以添加sysctls。但从安全角度来看,这将是非常危险的!如果Elasticsearch服务被入侵,攻击者将拥有对其主机节点的root权限。你可以使用init container来一定程度上降低这个风险:


apiVersion: apps/v1kind: Deploymentmetadata:name: elasticsearchspec:selector:matchLabels:app.kubernetes.io/name: elasticsearchtemplate:metadata:labels:app.kubernetes.io/name: elasticsearchspec:initContainers:- name: update-sysctlimage: alpine:3.12command: ['/bin/sh']args:- -c- |sysctl -w vm.max_map_count=262144securityContext:privileged: truecontainers:- name: elasticsearchimage: elasticsearch:7.9.3env:- name: discovery.typevalue: single-nodeports:- name: httpcontainerPort: 9200


pod在特权init container中设置了sysctl,之后Elasticsearch容器按预期启动。


你仍然在使用一个特权容器,这并不是理想状态,但至少它持续时间很短,所以攻击面要低得多。


这是Elastic Cloud Operator推荐的方法:

https://www.elastic.co/guide/en/cloud-on-k8s/current/k8s-virtual-memory.html


使用特权init container为运行pod的节点做准备是一种相当常见的模式。例如,Istio使用init container来设置每次pod运行时的iptables规则。


使用init container的另一个原因是以某种方式准备 pod 的filesystem。一个常见的用例是secrets管理。


其他的init container用例



如果你使用类似HashicCorp Vault这样的工具来管理secrets,而不是Kubernetes secrets,你可以在一个init container中检索secrets,并将它们持久化到一个共享的emptyDir卷。


如下所示:


apiVersion: apps/v1kind: Deploymentmetadata:name: myapplabels:app.kubernetes.io/name: myappspec:selector:matchLabels:app.kubernetes.io/name: myapptemplate:metadata:labels:app.kubernetes.io/name: myappspec:initContainers:- name: get-secretimage: vaultvolumeMounts:- name: secretsmountPath: /secretscommand: ['/bin/sh']args:- -c- |vault read secret/my-secret > /secrets/my-secretcontainers:- name: myappimage: myappvolumeMounts:- name: secretsmountPath: /secretsvolumes:- name: secretsemptyDir: {}


现在secret/my-secret secret将在myapp容器的filesystem中可用。


这就是Vault Agent Sidecar Injector等系统工作的基本思路。然而,它们在实践中相当复杂(结合mutating webhooks、init container和sidecars来隐藏大部分的复杂性)。


此外,还有一些其他你可能想要使用init container的原因:


  • 你希望数据库迁移脚本在你的应用程序之前运行(这通常可以在一个entrypoint脚本中完成,但有时使用专用容器更容易做到这一点)。

  • 你想从S3或GCS中检索一个你的应用所依赖的大文件(为此使用一个init container有助于避免应用容器的臃肿)。



总   结


这篇文章涵盖了相当多的内容,所以这里有一个表格,列出了一些多容器模式,以及你什么时候可能要使用它们:


借助多容器Pod,轻松扩展K8S中的应用


如果你想深入研究这个问题,请务必阅读官方文档和原始容器设计模式文件:

https://kubernetes.io/docs/concepts/workloads/pods/

https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/45406.pdf


文章来源:RancherLabs /


原文链接:

https://learnk8s.io/sidecar-containers-patterns



END