我在 xxxxx 的工作总结
我在 xxxxx 的工作总结(AI 生成)
从 xxxx 年 xx 月到 xxxx 年 xx 月,我在 xxxxxx 担任 DevOps 工程师。这是一段充满挑战与成长的旅程。在这篇文章里,我将回顾并总结我在这期间负责的主要工作、技术实践以及个人收获,希望能为同样走在 DevOps 路上的朋友们提供一些参考。
一、 核心职责:构建与守护高效稳定的基础设施
我的核心使命是为公司的产品和研发团队提供一个稳定、高效、自动化的基础设施环境。工作内容可以概括为以下几个方面:
基础设施即代码 (IaC) 与云资源管理:
- 全面负责公司在 AWS 上的云资源。初期,我接管了包括 EC2、VPC、IAM、S3 等核心服务的管理权限。
- 为了实现标准化和可重复部署,我引入了 Terraform 来管理 VPC、EKS 集群等核心网络和计算资源,显著提升了基础设施部署的一致性和效率。
- 主导了多次云环境的迁移和重构,包括将服务从旧 AWS 账户迁移到新账户,以及将部分服务从 AWS 迁移到公司的 PVE(Proxmox VE)私有云环境,有效优化了成本。
CI/CD 与自动化流程建设:
- 利用 GitHub Actions 为公司几乎所有的项目(涵盖 Rust, Python, Node.js, Go 等技术栈)搭建了 CI/CD 流水线。
- 设计并实现了标准化的 CI 流程,包括自动化构建、Docker 镜像打包、推送到 GHCR (GitHub Container Registry),以及最终部署到 EKS 或 EC2。
- 通过 Reusable Workflows 重构了 GitHub Actions,实现了 PR 提交/合并时自动发送通知到 Telegram 群组等功能,提升了团队协作效率。
- 为移动端(App2.0, React Native/Expo)项目配置了 CI 流程,实现了从代码提交到自动构建 Android/iOS 包,并发布到 GitHub Release 的全过程自动化。
监控、报警与日志系统建设:
- 从零开始搭建了公司统一的监控报警体系。在 EKS 和 PVE 环境中部署了 Prometheus + Grafana + Alertmanager 技术栈。
- 利用 Blackbox Exporter 对公司所有线上服务的 URL 进行健康检查和 SSL 证书过期监控。
- 部署了 Loki + Promtail 组合,集中收集所有 Docker 容器和关键服务的日志,并通过 Grafana 实现了日志的集中查询和可视化。
- 配置了多渠道报警,包括将 Prometheus 报警、AWS EventBridge 事件通过 Lambda 和 SNS 推送到 Telegram、Lark(飞书) 和 短信,确保故障能在第一时间被感知和响应。
运维与服务保障:
- 负责公司多条区块链(mainnet, testnet)的部署、重置、迁移和日常维护,包括 Validator 节点和 RPC 节点的管理。
- 部署和维护了 KYC、邮件申诉、排行榜、空投等多个核心业务系统,并为它们建立了完善的 CI/CD 和监控。
- 使用 Ansible 编写 Playbook,实现了对所有 Linux 服务器用户的自动化管理(如公钥分发、用户创建/删除)。
- 通过 WireGuard 和 OpenVPN 打通了办公室、PVE 私有云和多个 AWS VPC 之间的内网,构建了安全便捷的混合云网络环境。
二、 主要项目与技术实践亮点
在一年多的时间里,我深度参与并主导了多个关键项目,以下是一些典型的例子:
从 0 到 1 搭建 EKS 平台:通过 Terraform 创建了完整的 EKS(Elastic Kubernetes Service)环境,包括 VPC、Node Group,并部署了 AWS Load Balancer Controller, Prometheus, Grafana, Loki 等核心组件,为服务的容器化部署打下了坚实基础。
自动化监控脚本开发:使用 Python 编写了一系列实用的小工具,并通过 GitHub Actions 定时执行,例如:
- 监控 PVE 节点健康状况。
- 监控域名和 SSL 证书的过期时间。
- 每日自动获取 AWS 账单并发送通知。
混合云网络打通:成功实现了深圳办公室、香港 PVE 机房与 AWS 新加坡地域 VPC 之间的三网互通。通过在 PVE 和办公室部署软路由,并利用 WireGuard 建立隧道,解决了跨地域、跨云厂商的网络连接问题,为开发和测试提供了极大的便利。
服务迁移与成本优化:主导了将邮件申诉服务(MailServer)等多个应用从 AWS EC2 迁移到公司自建的 PVE 虚拟化平台,在保证服务稳定性的前提下,有效降低了云资源成本。
日志与审计系统建设:部署了 rsyslogd 和 systemd-journal-remote 服务,集中收集了所有服务器的系统日志和操作审计日志,为安全审计和问题追溯提供了有力支持。
三、 技术栈沉淀
在这段经历中,我熟练运用了以下技术和工具:
- 云平台: AWS (EC2, VPC, S3, IAM, EKS, RDS, Lambda, CloudFront, Amplify, Route 53)
- 虚拟化: Proxmox VE (PVE)
- IaC: Terraform, Ansible
- CI/CD: GitHub Actions
- 容器化: Docker, Docker Compose, Kubernetes (EKS)
- 监控与日志: Prometheus, Grafana, Alertmanager, Loki, Promtail, Blackbox Exporter
- 网络: WireGuard, OpenVPN, Nginx, HAProxy
- 脚本与编程: Python, Bash Shell
- 数据库: PostgreSQL, MySQL (RDS & 自建)
- 其他: Vault, Redis, MinIO
四、 总结与展望
在 xxxxxxx 的这段时间,我不只是一名执行者,更是一个问题解决者和流程优化者。从手动部署到全面自动化,从分散的资源到统一管理,我亲身经历了公司 DevOps 体系从无到有、从有到优的全过程。最大的收获不仅仅是技术的广度和深度得到了极大的拓展,更重要的是培养了从全局视角思考问题、主动发现并解决潜在风险的 DevOps 思维。
感谢在 xxxxxxxx 的这段宝贵经历,它为我的职业生涯画下了浓墨重彩的一笔。未来,我将继续在云原生和自动化的道路上探索前行。