kubernetes

kubernetes 是谷歌内部大规模集群管理系统Borg的开源版本。
kubernetes 是基于容器技术的分布式架构。

PaaS - platform as a service

PaaS是(Platform as a Service)的缩写,是指平台即服务。 把服务器平台作为一种服务提供的商业模式,通过网络进行程序提供的服务称之为SaaS(Software as a Service),是云计算三种服务模式之一,而云计算时代相应的服务器平台或者开发环境作为服务进行提供就成为了PaaS(Platform as a Service)。

Service Mesh - 服务网格
Serverless - 无服务器架构

kubernetes 具有完备的集群管理能力,包括多多层次的安全防护和准入机制、多租户应用支撑能力、透明的服务注册和服务发现机制、内建的智能负载均衡器、强大的故障发现和自我修复能力、服务滚动升级和在线扩容能力、可扩展的资源自动调动机制,以及多粒度的资源配额管理能力。

组成

kubernetes cluster

分为

  • control plane components
  • node
  • addons

control plane components - 控制平面组件

控制平面的组件对集群做出全局决策(比如调度),以及检测和响应集群事件(例如,当不满足部署的 replicas 字段时,启动新的 pod)。

控制平面组件可以在集群中的任何节点上运行。 然而,为了简单起见,设置脚本通常会在同一个计算机上启动所有控制平面组件, 并且不会在此计算机上运行用户容器。

kube-apiserver

API 服务器是 Kubernetes 控制面的组件, 该组件公开了 Kubernetes API。 API 服务器是 Kubernetes 控制面的前端。

Kubernetes API 服务器的主要实现是 kube-apiserver。 kube-apiserver 设计上考虑了水平伸缩,也就是说,它可通过部署多个实例进行伸缩。 你可以运行 kube-apiserver 的多个实例,并在这些实例之间平衡流量。

etcd

etcd 是兼具一致性和高可用性的键值数据库,可以作为保存 Kubernetes 所有集群数据的后台数据库。

您的 Kubernetes 集群的 etcd 数据库通常需要有个备份计划。

kube-scheduler

控制平面组件,负责监视新创建的、未指定运行节点(node)的 Pods,选择节点让 Pod 在上面运行。

调度决策考虑的因素包括单个 Pod 和 Pod 集合的资源需求、硬件/软件/策略约束、亲和性和反亲和性规范、数据位置、工作负载间的干扰和最后时限。

kube-controller-manager

运行控制器进程的控制平面组件。

从逻辑上讲,每个控制器都是一个单独的进程, 但是为了降低复杂性,它们都被编译到同一个可执行文件,并在一个进程中运行。

这些控制器包括:

节点控制器(Node Controller): 负责在节点出现故障时进行通知和响应
任务控制器(Job controller): 监测代表一次性任务的 Job 对象,然后创建 Pods 来运行这些任务直至完成
端点控制器(Endpoints Controller): 填充端点(Endpoints)对象(即加入 Service 与 Pod)
服务帐户和令牌控制器(Service Account & Token Controllers): 为新的命名空间创建默认帐户和 API 访问令牌

cloud-controller-manager

云控制器管理器是指嵌入特定云的控制逻辑的 控制平面组件。 云控制器管理器使得你可以将你的集群连接到云提供商的 API 之上, 并将与该云平台交互的组件同与你的集群交互的组件分离开来。
cloud-controller-manager 仅运行特定于云平台的控制回路。 如果你在自己的环境中运行 Kubernetes,或者在本地计算机中运行学习环境, 所部署的环境中不需要云控制器管理器。

与 kube-controller-manager 类似,cloud-controller-manager 将若干逻辑上独立的 控制回路组合到同一个可执行文件中,供你以同一进程的方式运行。 你可以对其执行水平扩容(运行不止一个副本)以提升性能或者增强容错能力。

下面的控制器都包含对云平台驱动的依赖:

节点控制器(Node Controller): 用于在节点终止响应后检查云提供商以确定节点是否已被删除
路由控制器(Route Controller): 用于在底层云基础架构中设置路由
服务控制器(Service Controller): 用于创建、更新和删除云提供商负载均衡器

Node 组件

节点组件在每个节点上运行,维护运行的 Pod 并提供 Kubernetes 运行环境。

kubelet

一个在集群中每个节点(node)上运行的代理。 它保证容器(containers)都 运行在 Pod 中。

kubelet 接收一组通过各类机制提供给它的 PodSpecs,确保这些 PodSpecs 中描述的容器处于运行状态且健康。 kubelet 不会管理不是由 Kubernetes 创建的容器。

kube-proxy

kube-proxy 是集群中每个节点上运行的网络代理, 实现 Kubernetes 服务(Service) 概念的一部分。

kube-proxy 维护节点上的网络规则。这些网络规则允许从集群内部或外部的网络会话与 Pod 进行网络通信。

如果操作系统提供了数据包过滤层并可用的话,kube-proxy 会通过它来实现网络规则。否则, kube-proxy 仅转发流量本身。

容器运行时(Container Runtime)

容器运行环境是负责运行容器的软件。

Kubernetes 支持多个容器运行环境: Docker、 containerd、CRI-O 以及任何实现 Kubernetes CRI (容器运行环境接口)。

插件(Addons)

插件使用 Kubernetes 资源(DaemonSet、 Deployment等)实现集群功能。 因为这些插件提供集群级别的功能,插件中命名空间域的资源属于 kube-system 命名空间。

下面描述众多插件中的几种。有关可用插件的完整列表,请参见 插件(Addons)。

DNS

尽管其他插件都并非严格意义上的必需组件,但几乎所有 Kubernetes 集群都应该 有集群 DNS, 因为很多示例都需要 DNS 服务。

集群 DNS 是一个 DNS 服务器,和环境中的其他 DNS 服务器一起工作,它为 Kubernetes 服务提供 DNS 记录。

Kubernetes 启动的容器自动将此 DNS 服务器包含在其 DNS 搜索列表中。

Web 界面(仪表盘)

Dashboard 是 Kubernetes 集群的通用的、基于 Web 的用户界面。 它使用户可以管理集群中运行的应用程序以及集群本身并进行故障排除。

容器资源监控

容器资源监控 将关于容器的一些常见的时间序列度量值保存到一个集中的数据库中,并提供用于浏览这些数据的界面。

集群层面日志

集群层面日志 机制负责将容器的日志数据 保存到一个集中的日志存储中,该存储能够提供搜索和浏览接口。

Service

service 是分布式集群架构的核心。

service 对象拥有如下的关键特征:

  • 唯一制定名称
  • 虚拟ip和端口号
  • 提供某种远程服务能力
  • 能够将客户端对服务的访问请求转发到一组容器应用上

service的服务进程通常基于 socket 通信对外提供服务,比如 Redis,Memcached,MySQL,Web Server。

Pod

kubernetes 设计了 Pod 对象,将每个服务进程都包装到相应的 Pod 中,使其成为 Pod 中运行的一个容器。

kubectl 常用命令

kubectl 是 Kubernetes 的命令行工具,用于操作 K8s 集群。

基本语法

kubectl <动作> <资源类型> [参数]

常用命令速查

命令 解释
kubectl get svc -n <命名空间> 查看指定命名空间下的所有服务列表(服务名、类型、集群IP、端口等)。svcservices 的缩写。
kubectl get pods -n <命名空间> 查看指定命名空间下的所有 Pod(容器实例)及其状态
kubectl get deployments -n <命名空间> 查看指定命名空间下的所有 Deployment(部署控制器)
kubectl get svc -n <命名空间> -o wide 查看服务列表(更详细,含 Selector 等)
kubectl describe pod <pod名> -n <命名空间> 查看某个 Pod 的详细信息(含事件日志)
kubectl logs <pod名> -n <命名空间> 查看某个 Pod 的容器日志,用于排查错误原因
kubectl get svc -A 查看所有命名空间下的服务列表(-A = --all-namespaces
kubectl cluster-info 查看集群信息(API Server 地址等)
kubectl api-resources 查看所有支持的资源类型

常用参数

参数 完整写法 作用
-n <name> --namespace=<name> 指定命名空间,只查看该命名空间下的资源
-A --all-namespaces 查看所有命名空间下的资源
-o wide --output=wide 以更详细的格式输出
-o yaml --output=yaml 以 YAML 格式输出

举例

# 查看 mineai-cz 命名空间下所有已部署的服务
kubectl get svc -n mineai-cz

# 查看该命名空间下所有 Pod 的状态
kubectl get pods -n mineai-cz

# 查看所有命名空间下的服务
kubectl get svc -A

Pod 状态说明

执行 kubectl get pods 时,STATUS 列常见状态:

状态 含义
Running Pod 正常运行中,READY 列显示 1/1 表示就绪
Completed Pod 执行一次性任务(Job/CronJob)后正常结束,READY 显示 0/1这是正常状态,例如自动标注任务跑完就会变成 Completed
Error 容器启动后异常退出(退出码非0),通常需要排查配置文件或代码问题。常用 kubectl logs <pod名> -n <命名空间> 查看日志定位原因
CrashLoopBackOff 容器反复启动又崩溃,K8s 在退避等待
Evicted Pod 被节点驱逐,通常因为节点资源不足(磁盘压力/内存压力)。K8s 会尝试在其他节点重建
Pending Pod 已创建但还未调度到节点运行
ContainerStatusUnknown 节点失联或 kubelet 停止上报状态
UnexpectedAdmissionError Pod 调度时准入控制出错,常见于资源不足

为什么 get pods 会返回很多 Completed / Error / Evicted 的 Pod?

这是 K8s 的默认行为kubectl get pods 默认显示所有未被删除的 Pod,包括历史遗留的。

状态 出现原因 是否正常
Completed Job/CronJob 跑完的 Pod,K8s 默认保留记录供查日志 ✅ 正常,可手工清理
Error Deployment 更新后旧 Pod 出错,新 Pod 启动后旧的没删干净;或配置错误导致反复重启 ⚠️ 需排查
Evicted 节点曾有资源压力(磁盘满/内存不足),被驱逐的 Pod 积压 ⚠️ 需关注节点健康

想看"当前在跑什么"的方法:

# 只看 Running 状态的
kubectl get pods -n mineai-cz | grep Running

# 只看非 Running 且非 Completed 的(异常Pod)
kubectl get pods -n mineai-cz | grep -vE "Running|Completed"

# 清理旧的 Completed Pod
kubectl delete job --all -n mineai-cz  # 删除所有 Job(谨慎,确认无运行中的)