Kubernetes之Pod调度

本文讲的是<b>Kubernetes之Pod调度</b>【编者的话】Kubernetes调度器根据特定的算法与策略将pod调度到工作节点上。在默认情况下，Kubernetes调度器可以满足绝大多数需求，例如调度pod到资源充足的节点上运行，或调度pod分散到不同节点使集群节点资源均衡等。但一些特殊的场景，默认调度算法策略并不能满足实际需求，例如使用者期望按需将某些pod调度到特定硬件节点(数据库服务部署到SSD硬盘机器、CPU/内存密集型服务部署到高配CPU/内存服务器），或就近部署交互频繁的pod（例如同一机器、同一机房、或同一网段等）。

<a href="http://dockone.io/article/2626">【烧脑式Kubernetes实战训练营】本次培训理论结合实践，主要包括：Kubernetes架构和资源调度原理、Kubernetes DNS与服务发现、基于Kubernetes和Jenkins的持续部署方案、Kubernetes网络部署实践、监控、日志、Kubernetes与云原生应用、在CentOS中部署Kubernetes集群、Kubernetes中的容器设计模式、开发Kubernetes原生应用步骤介绍等。</a>

Kubernetes中的调度策略主要分为全局调度与运行时调度2种。其中全局调度策略在调度器启动时配置，而运行时调度策略主要包括选择节点（nodeSelector），节点亲和性（nodeAffinity），pod亲和与反亲和性（podAffinity与podAntiAffinity）。Node Affinity、podAffinity/AntiAffinity以及后文即将介绍的污点(Taints）与容忍（tolerations）等特性，在Kuberntes1.6中均处于Beta阶段。

本文着重介绍运行时调度策略。

Label是Kubernetes核心概念之一，其以key/value的形式附加到各种对象上，如Pod、Service、Deployment、Node等，达到识别这些对象，管理关联关系等目的，如Node和Pod的关联。

获取当前集群中的全部节点:

为指定节点设置label:

确认节点label是否设置成功:

nodeSelector是目前最为简单的一种pod运行时调度限制，目前在Kubernetes1.7.x及以下版本可用。Pod.spec.nodeSelector通过kubernetes的label-selector机制选择节点，由调度器调度策略匹配label，而后调度pod到目标节点，该匹配规则属于强制约束。后文要讲的nodeAffinity具备nodeSelector的全部功能，所以未来Kubernetes会将nodeSelector废除。

nodeSelector举例

设置label

查看满足非master节点且disktype类型为ssd的节点：

pod.yaml文件内容：

创建pod

查看pod nginx被调度到预期节点运行。

注：如果非默认namespace，需要指定具体namespace，例如:

Kubernetes自v1.4开始，节点有一些built-in label，罗列如下：

kubernetes.io/hostname

failure-domain.beta.kubernetes.io/zone

failure-domain.beta.kubernetes.io/region

beta.kubernetes.io/instance-type

beta.kubernetes.io/os

beta.kubernetes.io/arch

built-in label举例

yaml文件内容：

创建pod，并检查结果符合预期，pod被调度在预先设置的节点 bjo-ep-svc-017.dev.fwmrm.net。

前面提到的nodeSelector，其仅以一种非常简单的方式、即label强制限制pod调度到指定节点。而亲和性（Affinity）与非亲和性（anti-affinity）则更加灵活的指定pod调度到预期节点上，相比nodeSelector，Affinity与anti-affinity优势体现在：

表述语法更加多样化，不再仅受限于强制约束与匹配。

调度规则不再是强制约束（hard），取而代之的是软限（soft）或偏好（preference）。

指定pod可以和哪些pod部署在同一个/不同拓扑结构下。

亲和性主要分为3种类型：node affinity与inter-pod affinity/anti-affinity，下文会进行详细说明。

Node affinity在Kubernetes 1.2做为alpha引入，其涵盖了nodeSelector功能，主要分为requiredDuringSchedulingIgnoredDuringExecution与preferredDuringSchedulingIgnoredDuringExecution 2种类型。前者可认为一种强制限制，如果 Node 的标签发生了变化导致其没有符合 Pod 的调度要求节点，那么pod调度就会失败。而后者可认为理解为软限或偏好，同样如果 Node 的标签发生了变化导致其不再符合 pod 的调度要求，pod 依然会调度运行。

node affinity举例

设置节点label：

部署pod的预期是到非master节点（role!=master）、且CPU高配的机器上(cpu=high)。

查看满足条件节点：

pod.yaml文件内容如下：

检查结果符合预期，pod nginx成功部署到非master节点且CPU高配的机器上。

inter-pod affinity与anti-affinity由Kubernetes 1.4引入，当前处于beta阶段，其中podAffinity用于调度pod可以和哪些pod部署在同一拓扑结构之下。而podAntiAffinity相反，其用于规定pod不可以和哪些pod部署在同一拓扑结构下。通过pod affinity与anti-affinity来解决pod和pod之间的关系。

与Node affinity类似，pod affinity与anti-affinity同样分为requiredDuringSchedulingIgnoredDuringExecution and preferredDuringSchedulingIgnoredDuringExecution等2种类型，前者被认为是强制约束，而后者后者可认为理解软限（soft）或偏好（preference）。

pod affinity与anti-affinity举例

本示例中假设部署场景为：期望is服务与oltp服务就近部署，而不希望与solr服务部署同一拓扑结构上。

yaml文件部分内容：

查看部署结果，is服务与oltp部署到了同一台机器，而solr被部署在其他机器上。

亲和性/反亲和性调度策略比较

对于Node affinity，无论是强制约束（hard）或偏好（preference）方式，都是调度pod到预期节点上，而Taints恰好与之相反，如果一个节点标记为 Taints ，除非 Pod也被标识为可以耐受污点节点，否则该Taints节点不会被调度pod。Taints）与tolerations当前处于beta阶段，

Taints节点应用场景比如用户希望把Kubernetes Master节点保留给 Kubernetes 系统组件使用，或者把一组具有特殊资源预留给某些 pod。

pod不会再被调度到taint标记过的节点。taint标记节点举例如下：

如果仍然希望某个pod调度到taint节点上，则必须在 Spec 中做出Toleration 定义，才能调度到该节点，举例如下：

effect 共有三个可选项，可按实际需求进行设置：

1. NoSchedule：pod不会被调度到标记为taints节点。

2. PreferNoSchedule：NoSchedule的“preference”或“soft”版本。

3. NoExecute：该选项意味着一旦Taint 生效，如该节点内正在运行的 Pod 没有对应 Tolerate 设置，会直接被逐出。

使用者可根据实际需求，充分利用pod的相关高级调度策略，使Kubernetes更好的服务于我们的需求。

欢迎转载，请注明作者出处：张夏，FreeWheel Lead Engineer，DockOne社区

原文发布时间为：2017-08-25

本文作者：张夏

本文来自云栖社区合作伙伴Dockerone.io，了解相关信息可以关注Dockerone.io。

原文标题：Kubernetes之Pod调度

Kubernetes之Pod调度

继续阅读

使用jvm监控工具(jconsole、jvisualvm)通过jmx远程连接kubernetes上的java应用

configure/make/make install的作用

ubuntu下gvim配置文件.vimrc

Docker - Docker Volume及Volume命令详解

SPOJ QTREE4 Query on a tree IV

如何配置Eclipse进行Perl开发

npm install stylus --save失败

Error: docker-ce conflicts with 2:docker-1.13.1-53.git774336d.el7.centos.x86_64

在Windows上编译Wireshark源代码 .

Learning Perl: 1.3. How Can I Get Perl?

golang技术随笔（二）理解goroutine进程、线程和协程浅析goroutinego运行时调度参考资料

golang构建Dockerfile，并打包成镜像，运行在docker和k8s上

Docker-compose 进行Doris自动化编排部署

服装信息化数字化变革

使用kubeadm+calico部署kubernetes v1.25.3

Perl与网络监控