kubernetes flannel pod CrashLoopBackoff解决背景排查后记

2023-06-23 18:34:26

背景

某环境客户部署了一个kubernetes集群，发现flannel的pod一直重启，始终处于CrashLoopBackOff状态。

kubernetes flannel pod CrashLoopBackoff解决背景排查后记

排查

对于始终CrashLoopBackOff的pod，一般是应用本身的问题，需要查看具体pod的日志，通过 kubectl logs -f --tail -n kube-system flannel-xxx 显示，“pod cidr not assigned”，然后flannel退出

kubernetes flannel pod CrashLoopBackoff解决背景排查后记
检查日志显示的节点10.0.0.17的cidr，发现确实为空，而正常的环境却是正常的。

kubernetes flannel pod CrashLoopBackoff解决背景排查后记

3. 检查flannel的启动参数，发现为

--kube-subnet-mgr

,–kube-subnet-mgr代表其使用kube类型的subnet-manager。该类型有别于使用etcd的local-subnet-mgr类型，使用kube类型后，flannel上各Node的IP子网分配均基于K8S Node的spec.podCIDR属性—"

contact the Kubernetes API for subnet assignment instead of etcd.

",而在第2步，我们已经发现节点的podcidr为空。

kubernetes flannel pod CrashLoopBackoff解决背景排查后记

4. node节点分配podCIDR，需要kube-controller-manager开启

allocate-node-cidrs

为true，它和

cluster-cidr

参数共同使用的时候，

controller-manager

会为所有的Node资源分配容器IP段，并将结果写入到

PodCIDR

字段.检查环境kube-controller-manager的配置文件，发现问题所在。如下图，环境设置了

cluster-cidr

为

192.168.2.0/24

,同时设置了

node-cidr-mask-size

为

node-cidr-mask-size

参数,用来表示kubernetes管理集群中节点的cidr掩码长度,默认是24位，需要从

cluster-cidr

里面分配地址段，而设置的

cluster-cidr

显然无法满足这个掩码要求,导致kube-controller-manager为节点分配地址失败。

kubernetes flannel pod CrashLoopBackoff解决背景排查后记

后记

综上，可以修改

node-cidr-mask-size

参数为24以上的数解决node没法分配podcidr问题，但是同时发现环境部署使用的kubernetes自动化工具分配集群的

service-cluster-ip-range

也是从

cluster-cidr

里面取一段，分配不满足竟然使用了和cluster-cidr一样的地址，造成网段冲突。最终，让客户重新规划了网段，修改

cluster-cidr

掩码从24位改为16位，后续flannel均启动正常。

kubernetes flannel pod CrashLoopBackoff解决背景排查后记

背景

排查

后记

继续阅读

pod的深入理解

深入理解Kubernetes资源限制：内存深入理解Kubernetes资源限制：内存

安装harborInstallation and Configuration Guide

【k8s学习系列】第2篇，规模和更新部署k8s学习系列前言规模和更新部署总结

Kubernetes - Kubernetes 组件

k8s部署es集群和kibana

kubernetes学习笔记--挂载GlusterFS存储卷

Kubernetes - Xshell连接虚拟机 & 搭建Kubernetes基础集群

Kubernetes学习--资源管理方式

kubernetes-云原生技术进阶第18讲：Kubernetes 调度和资源管理第18讲：Kubernetes 调度和资源管理一、Kubernetes 调度过程二、Kubernetes 基础调度力三、Kubernetes 高级调度能力

通过serviceAccount的secret访问kubernetes API Server前提设置环境变量通过curl访问restAPI额外部分

cephadm离线搭建v17.2.0 Quincy版本Ceph集群集群规划准备工作

使用jvm监控工具(jconsole、jvisualvm)通过jmx远程连接kubernetes上的java应用

Error: docker-ce conflicts with 2:docker-1.13.1-53.git774336d.el7.centos.x86_64

golang构建Dockerfile，并打包成镜像，运行在docker和k8s上

使用kubeadm+calico部署kubernetes v1.25.3