From 169af77a267f9025d38680f3f2a86cf3832f8e86 Mon Sep 17 00:00:00 2001 From: wenchao1024 <87457873+wenchao1024@users.noreply.github.com> Date: Thu, 20 Jan 2022 19:34:34 +0800 Subject: [PATCH] =?UTF-8?q?Create=20=E6=B7=B1=E5=85=A5=E7=90=86=E8=A7=A3?= =?UTF-8?q?=20Linux=20Cgroup=20=E7=B3=BB=E5=88=97=EF=BC=88=E4=BA=8C?= =?UTF-8?q?=EF=BC=89=EF=BC=9A=E7=8E=A9=E8=BD=AC=20CPU.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...入理解 Linux Cgroup 系列(二):玩转 CPU.md | 284 ++++++++++++++++++ 1 file changed, 284 insertions(+) create mode 100644 cgroups/文章/深入理解 Linux Cgroup 系列(二):玩转 CPU.md diff --git a/cgroups/文章/深入理解 Linux Cgroup 系列(二):玩转 CPU.md b/cgroups/文章/深入理解 Linux Cgroup 系列(二):玩转 CPU.md new file mode 100644 index 0000000..3b79cc3 --- /dev/null +++ b/cgroups/文章/深入理解 Linux Cgroup 系列(二):玩转 CPU.md @@ -0,0 +1,284 @@ +# 深入理解 Linux Cgroup 系列(二):玩转 CPU + +上篇文章主要介绍了 cgroup 的一些基本概念,包括其在 `CentOS` 系统中的默认设置和控制工具,并以 CPU 为例阐述 cgroup 如何对资源进行控制。这篇文章将会通过具体的示例来演示如何通过 cgroup 来限制 `CPU` 的使用以及不同的 cgroup 设置对性能的影响。 + +## 1. 查看当前 cgroup 信息 + +有两种方法来查看系统的当前 cgroup 信息。第一种方法是通过 `systemd-cgls` 命令来查看,它会返回系统的整体 cgroup 层级,cgroup 树的最高层由 `slice` 构成,如下所示: + +```shell +$ systemd-cgls --no-page +├─1 /usr/lib/systemd/systemd --switched-root --system --deserialize 22 +├─user.slice +│ ├─user-1000.slice +│ │ └─session-11.scope +│ │ ├─9507 sshd: tom [priv] +│ │ ├─9509 sshd: tom@pts/3 +│ │ └─9510 -bash +│ └─user-0.slice +│ └─session-1.scope +│ ├─ 6239 sshd: root@pts/0 +│ ├─ 6241 -zsh +│ └─11537 systemd-cgls --no-page +└─system.slice + ├─rsyslog.service + │ └─5831 /usr/sbin/rsyslogd -n + ├─sshd.service + │ └─5828 /usr/sbin/sshd -D + ├─tuned.service + │ └─5827 /usr/bin/python2 -Es /usr/sbin/tuned -l -P + ├─crond.service + │ └─5546 /usr/sbin/crond -n +``` + +可以看到系统 cgroup 层级的最高层由 `user.slice` 和 `system.slice` 组成。因为系统中没有运行虚拟机和容器,所以没有 `machine.slice`,所以当 CPU 繁忙时,`user.slice` 和 `system.slice` 会各获得 `50%` 的 CPU 使用时间。 + +user.slice 下面有两个子 slice:`user-1000.slice` 和 `user-0.slice`,每个子 slice 都用 User ID (`UID`) 来命名,因此我们很容易识别出哪个 slice 属于哪个用户。例如:从上面的输出信息中可以看出 `user-1000.slice` 属于用户 tom,`user-0.slice` 属于用户 root。 + +`systemd-cgls` 命令提供的只是 cgroup 层级的静态信息快照,要想查看 cgroup 层级的动态信息,可以通过 `systemd-cgtop` 命令查看: + +```shell +$ systemd-cgtop +Path Tasks %CPU Memory Input/s Output/s + +/ 161 1.2 161.0M - - +/system.slice - 0.1 - - - +/system.slice/vmtoolsd.service 1 0.1 - - - +/system.slice/tuned.service 1 0.0 - - - +/system.slice/rsyslog.service 1 0.0 - - - +/system.slice/auditd.service 1 - - - - +/system.slice/chronyd.service 1 - - - - +/system.slice/crond.service 1 - - - - +/system.slice/dbus.service 1 - - - - +/system.slice/gssproxy.service 1 - - - - +/system.slice/lvm2-lvmetad.service 1 - - - - +/system.slice/network.service 1 - - - - +/system.slice/polkit.service 1 - - - - +/system.slice/rpcbind.service 1 - - - - +/system.slice/sshd.service 1 - - - - +/system.slice/system-getty.slice/getty@tty1.service 1 - - - - +/system.slice/systemd-journald.service 1 - - - - +/system.slice/systemd-logind.service 1 - - - - +/system.slice/systemd-udevd.service 1 - - - - +/system.slice/vgauthd.service 1 - - - - +/user.slice 3 - - - - +/user.slice/user-0.slice/session-1.scope 3 - - - - +/user.slice/user-1000.slice 3 - - - - +/user.slice/user-1000.slice/session-11.scope 3 - - - - +/user.slice/user-1001.slice/session-8.scope 3 - - - - +``` + +systemd-cgtop 提供的统计数据和控制选项与 `top` 命令类似,但该命令只显示那些开启了资源统计功能的 service 和 slice。比如:如果你想开启 `sshd.service` 的资源统计功能,可以进行如下操作: + +```shell +$ systemctl set-property sshd.service CPUAccounting=true MemoryAccounting=true +``` + +该命令会在 `/etc/systemd/system/sshd.service.d/` 目录下创建相应的配置文件: + +```shell +$ ll /etc/systemd/system/sshd.service.d/ +总用量 8 +4 -rw-r--r-- 1 root root 28 5月 31 02:24 50-CPUAccounting.conf +4 -rw-r--r-- 1 root root 31 5月 31 02:24 50-MemoryAccounting.conf + +$ cat /etc/systemd/system/sshd.service.d/50-CPUAccounting.conf +[Service] +CPUAccounting=yes + +$ cat /etc/systemd/system/sshd.service.d/50-MemoryAccounting.conf +[Service] +MemoryAccounting=yes +``` + +配置完成之后,再重启 `sshd` 服务: + +```shell +$ systemctl daemon-reload +$ systemctl restart sshd +``` + +这时再重新运行 systemd-cgtop 命令,就能看到 sshd 的资源使用统计了: + + + +![图片](https://mmbiz.qpic.cn/mmbiz_png/qFG6mghhA4YX5zs1YbLIib3BSW91XHC0hdp3HAR71skLicfOU95vHzM8E3cYw7csNvNhlEluGUjzt2nkw8Bf4ib4A/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1) + + + +> 开启资源使用量统计功能可能会增加系统的负载,因为资源统计也要消耗 CPU 和内存,大多数情况下使用 `top` 命令来查看就足够了。当然了,这是 Linux 系统嘛,一切的控制权都在你自己手里,你想怎么做就怎么做。 + +## 2. 分配 CPU 相对使用时间 + +通过上篇文章的学习我们知道了 CPU `shares` 可以用来设置 CPU 的相对使用时间,接下来我们就通过实践来验证一下。 + +> 下面所做的实验都是在单核 CPU 的系统上进行的,多核与单核的情况完全不同,文末会单独讨论。 + +测试对象是 1 个 service 和两个普通用户,其中用户 `tom` 的 UID 是 1000,可以通过以下命令查看: + +```shell +$ cat /etc/passwd|grep tom +tom:x:1000:1000::/home/tom:/bin/bash +``` + +创建一个 `foo.service`: + +```shell +$ cat /etc/systemd/system/foo.service +[Unit] +Description=The foo service that does nothing useful +After=remote-fs.target nss-lookup.target + +[Service] +ExecStart=/usr/bin/sha1sum /dev/zero +ExecStop=/bin/kill -WINCH ${MAINPID} + +[Install] +WantedBy=multi-user.target +``` + +`/dev/zero` 在 linux 系统中是一个特殊的设备文件,当你读它的时候,它会提供无限的空字符,因此 foo.service 会不断地消耗 CPU 资源。现在我们将 foo.service 的 CPU shares 改为 `2048`: + +```shell +$ mkdir /etc/systemd/system/foo.service.d +$ cat << EOF > /etc/systemd/system/foo.service.d/50-CPUShares.conf +[Service] +CPUShares=2048 +EOF +``` + +由于系统默认的 CPU shares 值为 `1024`,所以设置成 2048 后,在 CPU 繁忙的情况下,`foo.service` 会尽可能获取 `system.slice` 的所有 CPU 使用时间。 + +现在通过 `systemctl start foo.service` 启动 foo 服务,并使用 `top` 命令查看 CPU 使用情况: + + + +![图片](https://mmbiz.qpic.cn/mmbiz_png/qFG6mghhA4YX5zs1YbLIib3BSW91XHC0hEdZKhbwuUBF1SIN70c2EDiaDiaAELrXia0MNfrC6HKV2XNxibG4tIjP5Fg/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1) + + + +目前没有其他进程在消耗 CPU,所以 foo.service 可以使用几乎 100% 的 CPU。 + +现在我们让用户 `tom` 也参与进来,先将 `user-1000.slice` 的 CPU shares 设置为 `256`: + +```shell +$ systemctl set-property user-1000.slice CPUShares=256 +``` + +使用用户 `tom` 登录该系统,然后执行命令 `sha1sum /dev/zero`,再次查看 CPU 使用情况: + + + +![图片](https://mmbiz.qpic.cn/mmbiz_png/qFG6mghhA4YX5zs1YbLIib3BSW91XHC0hVw9wYxIdbzkQjkMNlNsrPZ9xoZ1Yu8qYQIhZuHhEMJzzj6LOhh1MCw/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1) + + + +现在是不是感到有点迷惑了?foo.service 的 CPU shares 是 `2048`,而用户 tom 的 CPU shares 只有 `256`,难道用户 `tom` 不是应该只能使用 10% 的 CPU 吗?回忆一下我在上一节提到的,当 CPU 繁忙时,`user.slice` 和 `system.slice` 会各获得 `50%` 的 CPU 使用时间。而这里恰好就是这种场景,同时 `user.slice` 下面只有 sha1sum 进程比较繁忙,所以会获得 50% 的 CPU 使用时间。 + +最后让用户 `jack` 也参与进来,他的 CPU shares 是默认值 1024。使用用户 `jack` 登录该系统,然后执行命令 `sha1sum /dev/zero`,再次查看 CPU 使用情况: + + + +![图片](https://mmbiz.qpic.cn/mmbiz_png/qFG6mghhA4YX5zs1YbLIib3BSW91XHC0hk4SKNV513vNVcYtlbIFB8hyfAnLaKWofS1vBMLFm8Mx39MOvJqUoUA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1) + + + +上面我们已经提到,这种场景下 `user.slice` 和 `system.slice` 会各获得 `50%` 的 CPU 使用时间。用户 tom 的 CPU shares 是 `256`,而用户 jack 的 CPU shares 是 `1024`,因此用户 jack 获得的 CPU 使用时间是用户 tom 的 `4` 倍。 + +## 3. 分配 CPU 绝对使用时间 + +上篇文章已经提到,如果想严格控制 CPU 资源,设置 CPU 资源的使用上限,即不管 CPU 是否繁忙,对 CPU 资源的使用都不能超过这个上限,可以通过 `CPUQuota` 参数来设置。下面我们将用户 tom 的 CPUQuota 设置为 `5%`: + +```shell +$ systemctl set-property user-1000.slice CPUQuota=5% +``` + +这时你会看到用户 tom 的 sha1sum 进程只能获得 5% 左右的 CPU 使用时间。 + + + +![图片](https://mmbiz.qpic.cn/mmbiz_png/qFG6mghhA4YX5zs1YbLIib3BSW91XHC0hQ2NBe7qOQ2mIIFoqvVYfVnr2ic562zL9nVmkbiaUPskSJWzrhs8Onvcw/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1) + + + +如果此时停止 `foo.service`,关闭用户 jack 的 sha1sum 进程,你会看到用户 tom 的 sha1sum 进程仍然只能获得 `5%`左右的 CPU 使用时间。 + + + +![图片](https://mmbiz.qpic.cn/mmbiz_png/qFG6mghhA4YX5zs1YbLIib3BSW91XHC0hL0Jus7F3AGAwa6jzNpWOdAsBJ5f8XKND1NkXoKgcVXxWZjWUNOQTAA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1) + + + +如果某个非核心服务很消耗 CPU 资源,你可以通过这种方法来严格限制它对 CPU 资源的使用,防止对系统中其他重要的服务产生影响。 + +## 4. 动态设置 cgroup + +cgroup 相关的所有操作都是基于内核中的 cgroup virtual filesystem,使用 cgroup 很简单,挂载这个文件系统就可以了。系统默认情况下都是挂载到 `/sys/fs/cgroup` 目录下,当 service 启动时,会将自己的 cgroup 挂载到这个目录下的子目录。以 `foo.service` 为例: + +先进入 `system.slice` 的 CPU 子系统: + +```shell +$ cd /sys/fs/cgroup/cpu,cpuacct/system.slice +``` + +查看 foo.service 的 cgroup 目录: + +```shell +$ ls foo.* +zsh: no matches found: foo.* +``` + +因为 foo.service 没有启动,所以没有挂载 cgroup 目录,现在启动 foo.service,再次查看它的 cgroup 目录: + +```shell +$ ls foo.serice +cgroup.clone_children cgroup.procs cpuacct.usage cpu.cfs_period_us cpu.rt_period_us cpu.shares notify_on_release +cgroup.event_control cpuacct.stat cpuacct.usage_percpu cpu.cfs_quota_us cpu.rt_runtime_us cpu.stat tasks +``` + +也可以查看它的 PID 和 CPU shares: + +```shell +$ cat foo.service/tasks +20225 + +$ cat foo.service/cpu.shares +2048 +``` + +> 理论上我们可以在 `/sys/fs/cgroup` 目录中动态改变 cgroup 的配置,但我不建议你在生产环境中这么做。如果你想通过实验来深入理解 cgroup,可以多折腾折腾这个目录。 + +## 5. 如果是多核 CPU 呢? + +上面的所有实验都是在单核 CPU 上进行的,下面我们简单讨论一下多核的场景,以 2 个 CPU 为例。 + +首先来说一下 CPU shares,shares 只能针对单核 CPU 进行设置,也就是说,无论你的 shares 值有多大,该 cgroup 最多只能获得 100% 的 CPU 使用时间(即 1 核 CPU)。还是用本文第 2 节的例子,将 foo.service 的 CPU shares 设置为 2048,启动 foo.service,这时你会看到 foo.service 仅仅获得了 100% 的 CPU 使用时间,并没有完全使用两个 CPU 核: + + + +![图片](https://mmbiz.qpic.cn/mmbiz_png/qFG6mghhA4YX5zs1YbLIib3BSW91XHC0hGh07XJhTr3bORg524Hsl2V0V8tz533iaVSGgEspBQAujd6eTFIkRMBw/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1) + + + +再使用用户 `tom` 登录系统,执行命令 `sha1sum /dev/zero`,你会发现用户 tom 的 sha1sum 进程和 foo.service 各使用 1 个 CPU 核: + + + +![图片](https://mmbiz.qpic.cn/mmbiz_png/qFG6mghhA4YX5zs1YbLIib3BSW91XHC0hqfpVyNgkllDDSB0Hrk7hfsgYC4ofCS3TDlibMLUbghb2vNKrhgOcVmA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1) + + + +再来说说 CPUQuota,这个上篇文章结尾已经提过了,如要让一个 cgroup 完全使用两个 CPU 核,可以通过 CPUQuota 参数来设置。例如: + +```shell +$ systemctl set-property foo.service CPUQuota=200% +``` + +至于进程最后能不能完全使用两个 CPU 核,就要看它自身的设计支持不支持了。 + +## 6. 总结 + +本文通过具体的示例来观察不同的 cgroup 设置对性能的影响,下面一篇文章将会演示如何通过 cgroup 来限制内存的使用。 + +> 原文链接:https://mp.weixin.qq.com/s?__biz=MzU1MzY4NzQ1OA==&mid=2247484160&idx=1&sn=d593f4693a07a2a5f958fe2e0f489edd&chksm=fbee43cdcc99cadbd2df86c57d051c9742b2f4864071f6269156ec405662037c1bb9eea4c89d&scene=21#wechat_redirect +