K8s 集群 etcd 备份与恢复实战
深入理解 etcd 快照策略,结合 Velero 实现跨集群迁移,以及灾难恢复的自动化脚本设计。
继续阅读记录云原生、自动化运维、Kubernetes、可观测性以及日常排障的思考与实践。 用工程思维解决复杂问题。
深入理解 etcd 快照策略,结合 Velero 实现跨集群迁移,以及灾难恢复的自动化脚本设计。
继续阅读使用 Thanos Sidecar 和对象存储构建高可用、低成本的多集群监控数据统一查询层。
继续阅读从 VPC 到 node group,使用 Terraform 模块化构建生产级 EKS 集群,并集成 GitOps 持续交付。
继续阅读使用 perf、bcc、火焰图等工具快速定位 CPU 飚高和内存泄漏,分享生产环境真实案例。
继续阅读利用 GitHub Actions 缓存和并行构建,优化镜像构建速度,并自动推送到多家容器镜像仓库。
继续阅读结合 eBPF 提升 Kubernetes 网络性能,并通过 Calico 网络策略实现微服务细粒度访问控制。
继续阅读系统学习 Kubernetes 调度、网络、存储及安全,通过实操强化集群管理能力。
基于 Prometheus + AlertManager + Grafana 构建统一可观测性平台,覆盖 200+ 节点。
主导将 10+ 微服务从自建 K8s 迁移到 AWS EKS,实现弹性伸缩与成本优化。
发布 aws-vpc-eks 模块,获得 60+ GitHub stars,被多个团队采用。