Skip to content

前面我们学习了 Docker 镜像、容器的各种操作,dockerfile 的编写,dockerignore 和镜像的多阶段构建。

是不是感觉 Docker 也没多少东西?

确实,Docker 用起来还是很简单的,学习成本不高。

那它是怎么实现的呢?

Docker 容器跑起来就像一个独立的系统一样,它是怎么做到的?

如果网页上有两份 aaa、bbb 变量,我们怎么保证它们不冲突呢?

namespace 呀:

变成 xxx.aaa、xxx.bbb 和 yyy.aaa、yyy.bbb 就不冲突了。

Docker 在一个操作系统上实现多个独立的容器也是这种思路。

linux 操作系统提供了 namespace 机制,可以给进程、用户、网络等分配一个命名空间,这个命名空间下的资源都是独立命名的。

比如 PID namespace,也就是进程的命名空间,所有进程都是在命名空间内独立分配 id 的。

而 IPC namespace 能限制只有这个 namespace 内的进程可以相互通信,不能和 namespace 外的进程通信。

Mount namespace 会创建一个新的文件系统,namespace 内的文件访问都是在这个文件系统之上。

类似这样的 namespace 一共有 6 种:

  • PID namespace: 进程 id 的命名空间
  • IPC namespace: 进程通信的命名空间
  • Mount namespace:文件系统挂载的命名空间
  • Network namespace:网络的命名空间
  • User namespace:用户和用户组的命名空间
  • UTS namespace:主机名和域名的命名空间

通过这 6 种命名空间,Docker 就实现了独立的容器,在容器内运行的代码就像在一个独立的系统里跑一样。

但是只有命名空间的隔离还不够,还得对资源做限制。

比如一个容器占用了太多的资源,那就会导致别的容器受影响。

怎么能限制容器的资源访问呢?

这就需要 linux 操作系统的另一种机制:Control Group。

创建一个 Control Group 可以给它指定参数,比如 cpu 用多少、内存用多少、磁盘用多少,然后加到这个组里的进程就会受到这个限制。

这样,创建容器的时候先创建一个 Control Group,指定资源的限制,然后把容器进程加到这个 Control Group 里,就不会有容器占用过多资源的问题了。

那这样就完美了么?

其实还有一个问题:每个容器都是独立的文件系统,相互独立,而这些文件系统之间可能很大部分都是一样的,同样的内容占据了很大的磁盘空间,会导致浪费。

所以 Docker 设计了一种分层机制:

每一层都是不可修改的,也叫做镜像。

要修改就创建个新的层:

然后通过一种叫做 UnionFS 的机制把这些层合并起来,变成一个文件系统:

这样如果有多个容器内做了文件修改,只要创建不同的层即可,底层的基础镜像是一样的。

我们写的这个 Dockerfile,每一行指令都会生成一层镜像:

点开 docker 镜像的详情可以看到:

就上面这个 dockerfile,它对应的镜像就有 20 层。

当然,很多都是一层层通过 FROM 继承下来的。

Docker 通过这种分层的镜像存储,极大的减少了文件系统的磁盘占用。

哪里看出来的呢?

比如 nest 的镜像有 1g 多:

但是很多都是它继承的 node 镜像里的,可以看到每一层用了多少存储空间:

我本地两个 nest 镜像,它们都继承了 node 镜像,这两个合起来有 2g 的存储空间么?

没有,因为下面的镜像层是公用的:

如果有 10 个这种类似的镜像,之前需要 10g。现在呢?可能不到 2g 就够了。

这就是分层存储的魅力。

而且还可以把这些镜像 push 到 registry 镜像仓库,别人拉下来也可以直接用。

但镜像是不可修改的,那为啥我们可以在容器内写文件呢?

因为容器跑起来会给他多加一个可写层,或者叫容器层:

这样容器就能在这里一层写文件了。

当然,再跑一个容器会创建一个新的可写层,另一个容器的可写层的数据就丢了。

所以 Docker 设计了挂载机制,可以挂载数据卷到这个可写层上去。

这个数据卷是可以持久化的,再跑个新容器,依然可以把这个 volume 挂上去。

这就是数据卷的作用。

回顾一下 Docker 实现原理的三大基础技术:

  • Namespace:实现各种资源的隔离
  • Control Group:实现容器进程的资源访问限制
  • UnionFS:实现容器文件系统的分层存储,镜像合并

都是缺一不可的。

总结

Docker 的实现原理依赖 linux 的 Namespace、Control Group、UnionFS 这三种机制。

Namespace 做资源隔离,Control Group 做容器的资源限制,UnionFS 做文件系统的分层镜像存储、镜像合并。

我们通过 dockerfile 描述镜像构建的过程,每一条指令都是一个镜像层。

镜像通过 docker run 就可以跑起来,对外提供服务,这时会添加一个可写层(容器层)。

挂载一个 volume 数据卷到 Docker 容器,就可以实现数据的持久化。

这就是 Docker 的实现原理。