K8s如何啟用cgroup2支持?
- 2022 年 11 月 16 日
- 筆記
- docker, Kubernetes, 雲原生, 可觀察性
什麼是 cgroup
📚️Reference:
control groups(控制組),通常被稱為cgroup,是Linux內核的一項功能。它允許將進程組織成分層的組,然後限制和監控各種資源的使用。 內核的cgroup接口是通過一個叫做cgroupfs的偽文件系統提供的。 分組是在核心的cgroup內核代碼中實現的,而資源跟蹤和限制是在一組每個資源類型的子系統中實現的(內存、CPU等等)。
cgroup 是容器和雲原生的底層技術棧. kubelet 和 CRI 都需要對接 cgroup 來強制執行為 Pod 和容器管理資源,即: requests/limits 和 cpu/memory。
Linux 中有兩個 cgroup 版本:cgroup v1 和 cgroup v2。cgroup v2 是新一代的 cgroup API。
Kubernetes 自 v1.25 起 cgroup2 特性正式 stable.
cgroup v2 有哪些優勢
📚️Reference:
cgroup v2 提供了一個具有增強資源管理能力的統一控制系統。
cgroup v2 對 cgroup v1 進行了多項改進,例如:
- API 中單個統一的層次結構設計
- 更安全的子樹委派給容器
- 更新的功能特性, 例如壓力阻塞信息(Pressure Stall Information,PSI)
- 跨多個資源的增強資源分配管理和隔離
- 統一核算不同類型的內存分配(網絡內存、內核內存等)
- 考慮非即時資源變化,例如頁面緩存回寫
一些 Kubernetes 特性專門使用 cgroup v2 來增強資源管理和隔離。 例如,MemoryQoS 特性改進了內存 QoS 並依賴於 cgroup v2 原語。
使用 cgroup v2 前提
📚️Reference:
cgroup v2 具有以下要求:
- 操作系統發行版啟用 cgroup v2
- Ubuntu(從 21.10 開始,推薦 22.04+)
- Debian GNU/Linux(從 Debian 11 Bullseye 開始)
- Fedora(從 31 開始)
- RHEL 和類似 RHEL 的發行版(從 9 開始)
- …
- Linux 內核為 5.8 或更高版本
- 容器運行時支持 cgroup v2。例如:
- containerd v1.4 和更高版本
- cri-o v1.20 和更高版本
- kubelet 和容器運行時被配置為使用 systemd cgroup 驅動
使用 cgroup v2
📝Notes:
這裡以 Debian 11 Bullseye + containerd v1.4 為例.
啟用並檢查 Linux 節點的 cgroup v2
Debian 11 Bullseye 默認已啟用 cgroup v2.
可以通過如下命令驗證:
stat -fc %T /sys/fs/cgroup/
- 對於 cgroup v2,輸出為
cgroup2fs
。 - 對於 cgroup v1,輸出為
tmpfs
。
如果沒有啟用, 可以通過在 /etc/default/grub
下的 GRUB_CMDLINE_LINUX
中添加 systemd.unified_cgroup_hierarchy=1
, 然後執行 sudo update-grub
📝Notes:
如果是樹莓派, 標準 Raspberry Pi OS 安裝時不會啟用cgroups
。 需要cgroups
來啟動 systemd 服務。可以通過將cgroup_memory=1 cgroup_enable=memory systemd.unified_cgroup_hierarchy=1
附加到/boot/cmdline.txt
來啟用cgroups
。
並重啟生效
kubelet 使用 systemd cgroup 驅動
kubeadm 支持在執行 kubeadm init
時,傳遞一個 KubeletConfiguration
結構體。 KubeletConfiguration
包含 cgroupDriver
字段,可用於控制 kubelet 的 cgroup 驅動。
說明: 在版本 1.22 中,如果用戶沒有在 KubeletConfiguration
中設置 cgroupDriver
字段, kubeadm init
會將它設置為默認值 systemd
。
這是一個最小化的示例,其中顯式的配置了此字段:
# kubeadm-config.yaml
kind: ClusterConfiguration
apiVersion: kubeadm.k8s.io/v1beta3
kubernetesVersion: v1.21.0
---
kind: KubeletConfiguration
apiVersion: kubelet.config.k8s.io/v1beta1
cgroupDriver: systemd
這樣一個配置文件就可以傳遞給 kubeadm 命令了:
kubeadm init --config kubeadm-config.yaml
說明:
Kubeadm 對集群所有的節點,使用相同的 KubeletConfiguration
。 KubeletConfiguration
存放於 kube-system
命名空間下的某個 ConfigMap 對象中。
執行 init
、join
和 upgrade
等子命令會促使 kubeadm 將 KubeletConfiguration
寫入到文件 /var/lib/kubelet/config.yaml
中, 繼而把它傳遞給本地節點的 kubelet。
containerd 使用 systemd cgroup 驅動
編輯 /etc/containerd/config.toml
:
[plugins.cri.containerd.runtimes.runc.options]
SystemdCgroup = true
升級監控組件以支持 cgroup v2 監控
📚️Reference:
cgroup v2 使用一個與 cgroup v1 不同的 API,因此如果有任何應用直接訪問 cgroup 文件系統, 則需要將這些應用更新為支持 cgroup v2 的版本。例如:
- 一些第三方監控和安全代理可能依賴於 cgroup 文件系統。你要將這些代理更新到支持 cgroup v2 的版本。
- 如果以獨立的 DaemonSet 的形式運行 cAdvisor 以監控 Pod 和容器, 需將其更新到 v0.43.0 或更高版本。
- 如果你使用 JDK,推薦使用 JDK 11.0.16 及更高版本或 JDK 15 及更高版本, 以便完全支持 cgroup v2。
完成🎉🎉🎉
總結
Kubernetes 自 v1.25 起 cgroup2 特性正式 stable. cgroup2 相比 cgroup v1 有以下優勢:
- API 中單個統一的層次結構設計
- 更安全的子樹委派給容器
- 更新的功能特性, 例如壓力阻塞信息(Pressure Stall Information,PSI)
- 跨多個資源的增強資源分配管理和隔離
- 統一核算不同類型的內存分配(網絡內存、內核內存等)
- 考慮非即時資源變化,例如頁面緩存回寫
推薦在使用 Kubernetes v1.25及以上版本時, 使用支持 cgroup v2 的linux 和 CRI. 並啟用 Kubernetes 的cgroup v2 功能.
📚️參考文檔
本文由東風微鳴技術博客 EWhisper.cn 編寫!