Docker

Docker
mengnankkzhou困难现状
软件开发最大的麻烦事之一,就是环境配置。用户计算机的环境都不相同,你怎么知道自家的软件,能在那些机器跑起来?
用户必须保证两件事:操作系统的设置,各种库和组件的安装。只有它们都正确,软件才能运行。举例来说,安装一个 Python 应用,计算机必须有 Python 引擎,还必须有各种依赖,可能还要配置环境变量。
如果某些老旧的模块与当前环境不兼容,那就麻烦了。开发者常常会说:”它在我的机器可以跑了”(It works on my machine),言下之意就是,其他机器很可能跑不了。
虚拟机(virtual machine)就是带环境安装的一种解决方案。它可以在一种操作系统里面运行另一种操作系统,比如在 Windows 系统里面运行 Linux 系统。应用程序对此毫无感知,因为虚拟机看上去跟真实系统一模一样,而对于底层系统来说,虚拟机就是一个普通文件,不需要了就删掉,对其他部分毫无影响。
但是会有以下的问题:
(1)资源占用多
虚拟机会独占一部分内存和硬盘空间。它运行的时候,其他程序就不能使用这些资源了。哪怕虚拟机里面的应用程序,真正使用的内存只有 1MB,虚拟机依然需要几百 MB 的内存才能运行。
(2)冗余步骤多
虚拟机是完整的操作系统,一些系统级别的操作步骤,往往无法跳过,比如用户登录。
(3)启动慢
启动操作系统需要多久,启动虚拟机就需要多久。可能要等几分钟,应用程序才能真正运行。
docker
Docker 属于 Linux 容器的一种封装,提供简单易用的容器使用接口。它是目前最流行的 Linux 容器解决方案。
Docker 将应用程序与该程序的依赖,打包在一个文件里面。运行这个文件,就会生成一个虚拟容器。程序在这个虚拟容器里运行,就好像在真实的物理机上运行一样。有了 Docker,就不用担心环境问题。
总体来说,Docker 的接口相当简单,用户可以方便地创建和使用容器,把自己的应用放入容器。容器还可以进行版本管理、复制、分享、修改,就像管理普通的代码一样。
Docker 的主要用途,目前有三大类。
(1)提供一次性的环境。比如,本地测试他人的软件、持续集成的时候提供单元测试和构建的环境。
(2)提供弹性的云服务。因为 Docker 容器可以随开随关,很适合动态扩容和缩容。
(3)组建微服务架构。通过多个容器,一台机器可以跑多个服务,因此在本机就可以模拟出微服务架构。
Docker 把应用程序及其依赖,打包在 image 文件里面。只有通过这个文件,才能生成 Docker 容器。image 文件可以看作是容器的模板。Docker 根据 image 文件生成容器的实例。同一个 image 文件,可以生成多个同时运行的容器实例。
image 是二进制文件。实际开发中,一个 image 文件往往通过继承另一个 image 文件,加上一些个性化设置而生成。举例来说,你可以在 Ubuntu 的 image 基础上,往里面加入 Apache 服务器,形成你的 image。
1 |
|
image 文件是通用的,一台机器的 image 文件拷贝到另一台机器,照样可以使用。一般来说,为了节省时间,我们应该尽量使用别人制作好的 image 文件,而不是自己制作。即使要定制,也应该基于别人的 image 文件进行加工,而不是从零开始制作。
为了方便共享,image 文件制作完成后,可以上传到网上的仓库。Docker 的官方仓库 Docker Hub 是最重要、最常用的 image 仓库。此外,出售自己制作的 image 文件也是可以的。
实例
1 | docker image pull library/hello-world |
上面代码中,docker image pull是抓取 image 文件的命令。library/hello-world是 image 文件在仓库里面的位置,其中library是 image 文件所在的组,hello-world是 image 文件的名字。
由于 Docker 官方提供的 image 文件,都放在library组里面,所以它的是默认组,可以省略。因此,上面的命令可以写成下面这样。
1 $ docker image pull hello-world
抓取成功以后,就可以在本机看到这个 image 文件了。
1 $ docker image ls
现在,运行这个 image 文件。
1 $ docker container run hello-world
ocker container run命令会从 image 文件,生成一个正在运行的容器实例。
注意,docker container run命令具有自动抓取 image 文件的功能。如果发现本地没有指定的 image 文件,就会从仓库自动抓取。因此,前面的docker image pull命令并不是必需的步骤。
对于那些不会自动终止的容器,必须使用docker container kill 命令手动终止。
1 | $ docker container kill [containID] |
容器文件
image 文件生成的容器实例,本身也是一个文件,称为容器文件。也就是说,一旦容器生成,就会同时存在两个文件: image 文件和容器文件。而且关闭容器并不会删除容器文件,只是容器停止运行而已。
1 |
|
上面命令的输出结果之中,包括容器的 ID。很多地方都需要提供这个 ID,比如上一节终止容器运行的docker container kill命令。
Dockerfile
首先,在项目的根目录下,新建一个文本文件.dockerignore,写入下面的内容。
1 | .git |
上面代码表示,这三个路径要排除,不要打包进入 image 文件。如果你没有路径要排除,这个文件可以不新建。
然后,在项目的根目录下,新建一个文本文件 Dockerfile,写入下面的内容。
1 | FROM node:8.4 |
FROM node:8.4:该 image 文件继承官方的 node image,冒号表示标签,这里标签是8.4,即8.4版本的 node。COPY . /app:将当前目录下的所有文件(除了.dockerignore排除的路径),都拷贝进入 image 文件的/app目录。WORKDIR /app:指定接下来的工作路径为/app。RUN npm install:在/app目录下,运行npm install命令安装依赖。注意,安装后所有的依赖,都将打包进入 image 文件。EXPOSE 3000:将容器 3000 端口暴露出来, 允许外部连接这个端口。
有了 Dockerfile 文件以后,就可以使用docker image build命令创建 image 文件了。
1 | $ docker image build -t koa-demo . |
上面代码中,-t参数用来指定 image 文件的名字,后面还可以用冒号指定标签。如果不指定,默认的标签就是latest。最后的那个点表示 Dockerfile 文件所在的路径,上例是当前路径,所以是一个点。
如果运行成功,就可以看到新生成的 image 文件koa-demo了。
1 $ docker image ls
docker container run命令会从 image 文件生成容器。
1
2
3 $ docker container run -p 8000:3000 -it koa-demo /bin/bash
# 或者
$ docker container run -p 8000:3000 -it koa-demo:0.0.1 /bin/bash
上面命令的各个参数含义如下:
-p参数:容器的 3000 端口映射到本机的 8000 端口。-it参数:容器的 Shell 映射到当前的 Shell,然后你在本机窗口输入的命令,就会传入容器。koa-demo:0.0.1:image 文件的名字(如果有标签,还需要提供标签,默认是 latest 标签)。/bin/bash:容器启动以后,内部第一个执行的命令。这里是启动 Bash,保证用户可以使用 Shell。
如果一切正常,运行上面的命令以后,就会返回一个命令行提示符。
1 root@66d80f4aaf1e:/app#
这表示你已经在容器里面了,返回的提示符就是容器内部的 Shell 提示符。执行下面的命令。
1 root@66d80f4aaf1e:/app# node demos/01.js
这时,Koa 框架已经运行起来了。打开本机的浏览器,访问 http://127.0.0.1:8000,网页显示"Not Found”,这是因为这个 demo 没有写路由。
这个例子中,Node 进程运行在 Docker 容器的虚拟环境里面,进程接触到的文件系统和网络接口都是虚拟的,与本机的文件系统和网络接口是隔离的,因此需要定义容器与物理机的端口映射(map)。
现在,在容器的命令行,按下 Ctrl + c 停止 Node 进程,然后按下 Ctrl + d (或者输入 exit)退出容器。此外,也可以用docker container kill终止容器运行。
1
2
3
4
5 # 在本机的另一个终端窗口,查出容器的 ID
$ docker container ls
# 停止指定的容器运行
$ docker container kill [containerID]
容器停止运行之后,并不会消失,用下面的命令删除容器文件。
1
2
3
4
5 # 查出容器的 ID
$ docker container ls --all
# 删除指定的容器文件
$ docker container rm [containerID]
也可以使用docker container run命令的--rm参数,在容器终止运行后自动删除容器文件。
1 $ docker container run --rm -p 8000:3000 -it koa-demo /bin/bash
cmd:
容器启动以后,需要手动输入命令node demos/01.js。我们可以把这个命令写在 Dockerfile 里面,这样容器启动以后,这个命令就已经执行了,不用再手动输入了。
1 | FROM node:8.4 |
上面的 Dockerfile 里面,多了最后一行CMD node demos/01.js,它表示容器启动后自动执行node demos/01.js。
你可能会问,RUN命令与CMD命令的区别在哪里?简单说,RUN命令在 image 文件的构建阶段执行,执行结果都会打包进入 image 文件;CMD命令则是在容器启动后执行。另外,一个 Dockerfile 可以包含多个RUN命令,但是只能有一个CMD命令。
注意,指定了CMD命令以后,docker container run命令就不能附加命令了(比如前面的/bin/bash),否则它会覆盖CMD命令。现在,启动容器可以使用下面的命令。
1 $ docker container run --rm -p 8000:3000 -it koa-demo:0.0.1
命令
docker container start
前面的docker container run命令是新建容器,每运行一次,就会新建一个容器。同样的命令运行两次,就会生成两个一模一样的容器文件。如果希望重复使用容器,就要使用docker container start命令,它用来启动已经生成、已经停止运行的容器文件。
1 $ docker container start [containerID]
docker container stop
前面的docker container kill命令终止容器运行,相当于向容器里面的主进程发出 SIGKILL 信号。而docker container stop命令也是用来终止容器运行,相当于向容器里面的主进程发出 SIGTERM 信号,然后过一段时间再发出 SIGKILL 信号。
1 $ docker container stop [containerID]
这两个信号的差别是,应用程序收到 SIGTERM 信号以后,可以自行进行收尾清理工作,但也可以不理会这个信号。如果收到 SIGKILL 信号,就会强行立即终止,那些正在进行中的操作会全部丢失。
stop更像是一个建议,而kill是强制性的
docker container logs
docker container logs命令用来查看 docker 容器的输出,即容器里面 Shell 的标准输出。如果docker run命令运行容器的时候,没有使用-it参数,就要用这个命令查看输出。
1 $ docker container logs [containerID]
docker container exec
docker container exec命令用于进入一个正在运行的 docker 容器。如果docker run命令运行容器的时候,没有使用-it参数,就要用这个命令进入容器。一旦进入了容器,就可以在容器的 Shell 执行命令了。
1 $ docker container exec -it [containerID] /bin/bash
docker container cp
docker container cp命令用于从正在运行的 Docker 容器里面,将文件拷贝到本机。下面是拷贝到当前目录的写法。
1 $ docker container cp [containID]:[/path/to/file] .
微服务
自建服务-1
首先,新建一个工作目录,并进入该目录。
1 $ mkdir docker-demo && cd docker-demo
1 | docker container run \ |
上面的命令基于php的 image 文件新建一个容器,并且运行该容器。php的标签是5.6-apache,说明装的是 PHP 5.6,并且自带 Apache 服务器。该命令的三个参数含义如下。
--rm:停止运行后,自动删除容器文件。--name wordpress:容器的名字叫做wordpress。--volume "$PWD/":/var/www/html:将当前目录($PWD)映射到容器的/var/www/html(Apache 对外访问的默认目录)。因此,当前目录的任何修改,都会反映到容器里面,进而被外部访问到。
安装mysql:
1 |
|
-d:容器启动后,在后台运行。--rm:容器终止运行后,自动删除容器文件。--name wordpressdb:容器的名字叫做wordpressdb--env MYSQL_ROOT_PASSWORD=123456:向容器进程传入一个环境变量MYSQL_ROOT_PASSWORD,该变量会被用作 MySQL 的根密码。--env MYSQL_DATABASE=wordpress:向容器进程传入一个环境变量MYSQL_DATABASE,容器里面的 MySQL 会根据该变量创建一个同名数据库(本例是WordPress)。
这样把mysql和php连接起来:
在docker-demo目录里面,新建一个Dockerfile文件,写入下面的内容。
1
2
3 FROM php:5.6-apache
RUN docker-php-ext-install mysqli
CMD apache2-foreground
上面代码的意思,就是在原来 PHP 的 image 基础上,安装mysqli的扩展。然后,启动 Apache。
基于这个 Dockerfile 文件,新建一个名为phpwithmysql的 image 文件。
1 $ docker build -t phpwithmysql .
现在基于 phpwithmysql image,重新新建一个 WordPress 容器。
1
2
3
4
5
6 $ docker container run \
--rm \
--name wordpress \
--volume "$PWD/":/var/www/html \
--link wordpressdb:mysql \
phpwithmysql
跟上一次相比,上面的命令多了一个参数--link wordpressdb:mysql,表示 WordPress 容器要连到wordpressdb容器,冒号表示该容器的别名是mysql。
这时还要改一下wordpress目录的权限,让容器可以将配置信息写入这个目录(容器内部写入的/var/www/html目录,会映射到这个目录)。
1 $ chmod -R 777 wordpress
接着,回到浏览器的http://172.17.0.2/wordpress页面,点击”现在就开始!”按钮,开始安装。
然后在界面里面输入用户名和密码
自建服务-2
首先,新建并启动 MySQL 容器。
1
2
3
4
5
6
7 $ docker container run \
-d \
--rm \
--name wordpressdb \
--env MYSQL_ROOT_PASSWORD=123456 \
--env MYSQL_DATABASE=wordpress \
mysql:5.7
然后,基于官方的 WordPress image,新建并启动 WordPress 容器。
1
2
3
4
5
6
7 $ docker container run \
-d \
--rm \
--name wordpress \
--env WORDPRESS_DB_PASSWORD=123456 \
--link wordpressdb:mysql \
wordpress
上面命令中,各个参数的含义前面都解释过了,其中环境变量WORDPRESS_DB_PASSWORD是 MySQL 容器的根密码。
上面命令指定wordpress容器在后台运行,导致前台看不见输出,使用下面的命令查出wordpress容器的 IP 地址。
1 $ docker container inspect wordpress
上面命令运行以后,会输出很多内容,找到IPAddress字段即可。我的机器返回的 IP 地址是172.17.0.3。
浏览器访问172.17.0.3,就会看到 WordPress 的安装提示。
官方 WordPress 容器的安装就已经成功了。但是,这种方法有两个很不方便的地方。
- 每次新建容器,返回的 IP 地址不能保证相同,导致要更换 IP 地址访问 WordPress。
- WordPress 安装在容器里面,本地无法修改文件。
使用下面的命令新建并启动 WordPress 容器。
1
2
3
4
5
6
7
8
9 $ docker container run \
-d \
-p 127.0.0.2:8080:80 \
--rm \
--name wordpress \
--env WORDPRESS_DB_PASSWORD=123456 \
--link wordpressdb:mysql \
--volume "$PWD/wordpress":/var/www/html \
wordpress
上面的命令跟前面相比,命令行参数只多出了两个。
-p 127.0.0.2:8080:80:将容器的 80 端口映射到127.0.0.2的8080端口。--volume "$PWD/wordpress":/var/www/html:将容器的/var/www/html目录映射到当前目录的wordpress子目录。
浏览器访问127.0.0.2:8080:80就能看到 WordPress 的安装提示了。而且,你在wordpress子目录下的每次修改,都会反映到容器里面。
最后,终止这两个容器(容器文件会自动删除)。
1 $ docker container stop wordpress wordpressdb
compose
可以管理多个 Docker 容器组成一个应用。你需要定义一个 YAML 格式的配置文件docker-compose.yml,写好多个容器之间的调用关系。然后,只要一个命令,就能同时启动/关闭这些容器。
1
2
3
4 # 启动所有服务
$ docker-compose up
# 关闭所有服务
$ docker-compose stop
在docker-demo目录下,新建docker-compose.yml文件,写入下面的内容。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 mysql:
image: mysql:5.7
environment:
- MYSQL_ROOT_PASSWORD=123456
- MYSQL_DATABASE=wordpress
web:
image: wordpress
links:
- mysql
environment:
- WORDPRESS_DB_PASSWORD=123456
ports:
- "127.0.0.3:8080:80"
working_dir: /var/www/html
volumes:
- wordpress:/var/www/html
上面代码中,两个顶层标签表示有两个容器mysql和web。每个容器的具体设置,前面都已经讲解过了,还是挺容易理解的。
启动两个容器。
1 $ docker-compose up
浏览器访问 http://127.0.0.3:8080,应该就能看到 WordPress 的安装界面。
现在关闭两个容器。
1 $ docker-compose stop
关闭以后,这两个容器文件还是存在的,写在里面的数据不会丢失。下次启动的时候,还可以复用。下面的命令可以把这两个容器文件删除(容器必须已经停止运行)。
1 $ docker-compose rm
面试
1.Docker 和虚拟机的区别?
Docker 是操作系统级别的轻量虚拟化,虚拟机是硬件级别的虚拟化。Docker 启动快、资源占用小,适合快速交付和微服务架构部署。docker是一个进程级别的,基于linux容器
2.Docker 的工作原理?
基于 Linux 的 Namespace(命名空间) 实现进程隔离;
利用 Cgroups(控制组) 限制资源;
使用 UnionFS(联合文件系统) 构建分层的镜像结构;
容器本质上是运行在宿主机内核上的一个普通进程。
3.镜像的分层结构理解?
每个 Docker 镜像由多个只读层(Read-Only Layer)构成;
容器运行时会在镜像最上层添加一层可写层;
修改只会影响写层,原始镜像不变;
优点是节省空间、加速构建、共享层数据。
4.Dockerfile 常见优化技巧有哪些?
使用官方的精简基础镜像,如 alpine;
合并 RUN 命令,减少中间层数量:
1 | RUN apt-get update && apt-get install -y curl && rm -rf /var/lib/apt/lists/* |
使用 .dockerignore 忽略不必要文件;
尽量减少镜像大小,加快构建和传输。
5.CMD 和 ENTRYPOINT 的区别?
CMD 提供默认参数,可被 docker run 的命令参数覆盖;
ENTRYPOINT 提供主命令,不会被覆盖,适合制作“工具型镜像”;
一般组合使用:
1 | ENTRYPOINT ["python"] |
比如我们有两个文件,一个main 一个master
1 |
|
6.容器间通信方式?
同一个 Docker 网络下,容器可以通过服务名互相访问;比如link
例如 Docker Compose 会默认创建一个网络,服务名可作为 hostname;
跨主机通信需使用 Docker Swarm / Kubernetes 等编排工具。
7.Docker 的数据持久化方案?
数据卷(Volume):推荐,独立于容器生命周期;
绑定挂载(Bind Mount):挂载宿主机路径,开发测试方便;
tmpfs 挂载:内存中临时文件系统,适合敏感数据或缓存。
8.docker-compose.yml 常用字段详解
1 | version: '3' |
build: 指定构建上下文;
depends_on: 依赖关系,控制容器启动顺序;
volumes: 数据卷,持久化数据;
environment: 设置环境变量;
networks: 自定义网络支持跨服务通信。
9.Docker Registry
私有镜像仓库搭建(Docker Registry):
1 | docker run -d -p 5000:5000 --name registry registry:2 |
- 将镜像推送到私有仓库:
1 | docker tag myapp localhost:5000/myapp |
- 为啥需要私有仓库?答:用于公司内部部署,避免依赖公网 DockerHub,提升安全性和私有化能力。
- 如何保证私有仓库安全?答:启用 TLS、身份认证、访问控制策略。
| 问题 | 建议简答 |
|---|---|
| 容器和镜像的区别? | 镜像是只读模板,容器是镜像运行的实例,有可写层。 |
| Docker 为什么快? | 因为它是进程级别的隔离,不启动完整 OS。 |
| 你如何优化 Docker 镜像大小? | 使用小镜像、合并 RUN、清理缓存、使用多阶段构建等。 |
| 多容器协作怎么做? | 用 Docker Compose 或 Kubernetes 进行编排和通信。 |
| 镜像构建失败怎么调试? | 使用分层构建+缓存机制逐步调试,也可以手动进入中间镜像。 |
10.MySQL 为什么不能用 Docker 部署
Docker 可以轻松地从远程仓库拉取镜像,并快速部署应用,简单高效,极其方便。
曾经刚接触Docker的时候,一度以为一切皆可容器化,自己在使用Docker的时候,也是直接Docker部署。
但很多企业在实际生产环境中,并不会选择将 MySQL 部署在 Docker 容器中,而是更倾向于直接部署在物理机或虚拟机上。
1.数据库是有状态的应用,扩容十分麻烦
然后呢我们的mysql是有状态的容器,扩容、迁移、运维都特别复杂。
- MySQL 是有状态的,需要保证数据持久性、配置文件、日志等。
- Docker 容器之间难以共享数据,导致扩容不是简单的增加容器,而是新建独立的数据库实例,无法形成真正的集群。
- Docker 虽然限制了资源上限,但无法保证 MySQL 能够获得足够的资源,可能受到其他容器的资源竞争影响。
- Docker 会增加磁盘 IO 和网络 IO 的开销,对 MySQL 这种重 IO 应用影响明显,导致性能下降。
对于大型 MySQL 数据库,更推荐直接部署在物理机或虚拟机上,以获得更稳定、更可控的资源保障和 IO 性能。 例如,可以使用腾讯云TDSQL,阿里云 OceanBase。
补充:
1.在 Docker 的世界里,容器其实分两种:有状态和无状态。
有状态容器就是:运行过程中必须“记住”数据。 比如 MySQL、Redis、消息队列等,这些应用必须确保数据持久、可靠,哪怕容器重启、迁移、甚至崩溃,数据也不能丢。
所以有状态容器通常需要:
- 挂载数据卷(Volumes)
- 绑定宿主机路径(Bind Mounts)
- 使用网络存储(如 NFS、云盘)
这些操作都是为了:让数据活得比容器久。
难点:扩容复杂,数据一致性、同步、节点状态都需要严密设计,稍有不慎就会出问题。
无状态容器则完全不同:它从来不关心自己的过去。 数据不会保存在容器里,处理完请求,事情就结束了,下一次请求,它随时可以从“零”开始。
典型场景:前端应用、Web 服务器、API 网关、负载均衡器。
好处:横向扩容超级简单,随时加机器,随时销毁,弹性伸缩非常友好。
无状态容器特别适合用 Kubernetes 这样的编排工具,轻松实现秒级扩缩容。
2.Docker 的资源隔离并不彻底
虽然 Docker 在设计上是“隔离”的,但它并没有做到像虚拟机那样的强隔离,本质上它是通过 Linux 的 Cgroup 和 Namespace 技术来限制资源。
但这个限制,其实只是“最大值”的限制,比如你可以告诉 Docker:“这个容器最多只能用 4 核心、4G 内存”。问题来了:
- 它不能保证这些资源就一定是这个容器的;
- 更不能防止其他容器或进程把资源抢走。
Docker 并不能从根本上保证你为 MySQL 留下的资源就一定够用,它依然会受到其他容器的影响。资源可能被其他资源抢占
3.Docker 不适合部署 IO 密集型的中间件
虽然 Docker 用起来确实轻便,但在 磁盘 IO 和网络 IO 性能 上,它和裸机运行是有差距的,尤其是对像 MySQL 这样的“重度 IO 应用”来说,差距可能非常明显。
Docker 的容器文件系统是分层的,它不是直接操作宿主机磁盘,而是通过一层“抽象层”去处理读写请求。这个过程就像多了一层“代理”,每次读写数据都要先转一圈,性能自然会受到影响。
尤其是当 MySQL 进行大量小文件读写、事务操作、大数据导入导出时,这种额外的系统开销就会被放大,最终导致:
- IO 延迟变高
- 性能瓶颈明显
- 甚至数据库操作变慢、查询卡顿
Docker 的网络是虚拟出来的,容器之间通信要经过网桥(bridge)、NAT 转换,甚至还要穿越虚拟网络设备。这些过程虽然保证了隔离,但同时也增加了网络延迟。
总结:
对于大型 MySQL 数据库,Docker 并不是最佳选择,主要因为:
- 性能开销大,特别是在 IO 密集型操作中,Docker 容器会引入额外的性能损耗。
- 配置和管理复杂,特别是容器内部和宿主机之间的协调,以及容器化数据持久化的配置都相对麻烦。
- 稳定性和故障排查的问题,容器环境带来的额外层级和抽象使得排查和解决故障变得更加复杂。






