我在 xxxxx 的工作总结

发表于 2024-12-11 更新于 2024-12-19

我在 xxxxx 的工作总结(AI 生成)

从 xxxx 年 xx 月到 xxxx 年 xx 月，我在 xxxxxx 担任 DevOps 工程师。这是一段充满挑战与成长的旅程。在这篇文章里，我将回顾并总结我在这期间负责的主要工作、技术实践以及个人收获，希望能为同样走在 DevOps 路上的朋友们提供一些参考。

一、核心职责：构建与守护高效稳定的基础设施

我的核心使命是为公司的产品和研发团队提供一个稳定、高效、自动化的基础设施环境。工作内容可以概括为以下几个方面：

基础设施即代码 (IaC) 与云资源管理：
- 全面负责公司在 AWS 上的云资源。初期，我接管了包括 EC2、VPC、IAM、S3 等核心服务的管理权限。
- 为了实现标准化和可重复部署，我引入了 Terraform 来管理 VPC、EKS 集群等核心网络和计算资源，显著提升了基础设施部署的一致性和效率。
- 主导了多次云环境的迁移和重构，包括将服务从旧 AWS 账户迁移到新账户，以及将部分服务从 AWS 迁移到公司的 PVE（Proxmox VE）私有云环境，有效优化了成本。
CI/CD 与自动化流程建设：
- 利用 GitHub Actions 为公司几乎所有的项目（涵盖 Rust, Python, Node.js, Go 等技术栈）搭建了 CI/CD 流水线。
- 设计并实现了标准化的 CI 流程，包括自动化构建、Docker 镜像打包、推送到 GHCR (GitHub Container Registry)，以及最终部署到 EKS 或 EC2。
- 通过 Reusable Workflows 重构了 GitHub Actions，实现了 PR 提交/合并时自动发送通知到 Telegram 群组等功能，提升了团队协作效率。
- 为移动端（App2.0, React Native/Expo）项目配置了 CI 流程，实现了从代码提交到自动构建 Android/iOS 包，并发布到 GitHub Release 的全过程自动化。
监控、报警与日志系统建设：
- 从零开始搭建了公司统一的监控报警体系。在 EKS 和 PVE 环境中部署了 Prometheus + Grafana + Alertmanager 技术栈。
- 利用 Blackbox Exporter 对公司所有线上服务的 URL 进行健康检查和 SSL 证书过期监控。
- 部署了 Loki + Promtail 组合，集中收集所有 Docker 容器和关键服务的日志，并通过 Grafana 实现了日志的集中查询和可视化。
- 配置了多渠道报警，包括将 Prometheus 报警、AWS EventBridge 事件通过 Lambda 和 SNS 推送到 Telegram、Lark（飞书） 和短信，确保故障能在第一时间被感知和响应。
运维与服务保障：
- 负责公司多条区块链（mainnet, testnet）的部署、重置、迁移和日常维护，包括 Validator 节点和 RPC 节点的管理。
- 部署和维护了 KYC、邮件申诉、排行榜、空投等多个核心业务系统，并为它们建立了完善的 CI/CD 和监控。
- 使用 Ansible 编写 Playbook，实现了对所有 Linux 服务器用户的自动化管理（如公钥分发、用户创建/删除）。
- 通过 WireGuard 和 OpenVPN 打通了办公室、PVE 私有云和多个 AWS VPC 之间的内网，构建了安全便捷的混合云网络环境。

二、主要项目与技术实践亮点

在一年多的时间里，我深度参与并主导了多个关键项目，以下是一些典型的例子：

从 0 到 1 搭建 EKS 平台：通过 Terraform 创建了完整的 EKS（Elastic Kubernetes Service）环境，包括 VPC、Node Group，并部署了 AWS Load Balancer Controller, Prometheus, Grafana, Loki 等核心组件，为服务的容器化部署打下了坚实基础。
自动化监控脚本开发：使用 Python 编写了一系列实用的小工具，并通过 GitHub Actions 定时执行，例如：
- 监控 PVE 节点健康状况。
- 监控域名和 SSL 证书的过期时间。
- 每日自动获取 AWS 账单并发送通知。
混合云网络打通：成功实现了深圳办公室、香港 PVE 机房与 AWS 新加坡地域 VPC 之间的三网互通。通过在 PVE 和办公室部署软路由，并利用 WireGuard 建立隧道，解决了跨地域、跨云厂商的网络连接问题，为开发和测试提供了极大的便利。
服务迁移与成本优化：主导了将邮件申诉服务（MailServer）等多个应用从 AWS EC2 迁移到公司自建的 PVE 虚拟化平台，在保证服务稳定性的前提下，有效降低了云资源成本。
日志与审计系统建设：部署了 rsyslogd 和 systemd-journal-remote 服务，集中收集了所有服务器的系统日志和操作审计日志，为安全审计和问题追溯提供了有力支持。

三、技术栈沉淀

在这段经历中，我熟练运用了以下技术和工具：

云平台: AWS (EC2, VPC, S3, IAM, EKS, RDS, Lambda, CloudFront, Amplify, Route 53)
虚拟化: Proxmox VE (PVE)
IaC: Terraform, Ansible
CI/CD: GitHub Actions
容器化: Docker, Docker Compose, Kubernetes (EKS)
监控与日志: Prometheus, Grafana, Alertmanager, Loki, Promtail, Blackbox Exporter
网络: WireGuard, OpenVPN, Nginx, HAProxy
脚本与编程: Python, Bash Shell
数据库: PostgreSQL, MySQL (RDS & 自建)
其他: Vault, Redis, MinIO

四、总结与展望

在 xxxxxxx 的这段时间，我不只是一名执行者，更是一个问题解决者和流程优化者。从手动部署到全面自动化，从分散的资源到统一管理，我亲身经历了公司 DevOps 体系从无到有、从有到优的全过程。最大的收获不仅仅是技术的广度和深度得到了极大的拓展，更重要的是培养了从全局视角思考问题、主动发现并解决潜在风险的 DevOps 思维。

感谢在 xxxxxxxx 的这段宝贵经历，它为我的职业生涯画下了浓墨重彩的一笔。未来，我将继续在云原生和自动化的道路上探索前行。

0%