我做的某公司 SRE 职位的面试题

发表于 2024-02-13 更新于 2024-02-15

简介

这是之前有一家公司招 SRE，我投了简历，然后被给了份题让先做一下，于是便有了这篇“水”文。

当然，最终我并没有拿到这个 offer，最早是说一周内安排面试的，后来又说是这个岗位暂停了。

阅读全文 »

我做的某公司 DevOps 远程职位的面试题

发表于 2024-01-19 更新于 2024-01-21

简介

这是之前有一家海外公司招 DevOps 工程师，我投了简历，期望薪资写了薪资范围的最下限，然后被给了份题让先做一下，于是便有了这篇“水”文。

当然，最终我并没有拿到这个 offer，甚至连下一轮见 CTO 的机会都没有。（关于这个，我其实心里还是有一点小小的不服气的。）

阅读全文 »

Terraform 官方文档配置导致的 DB Proxy 故障案例

发表于 2023-12-16 更新于 2023-12-18

起因

在搭建新环境时，我们选择了 OpenTofu——这是在 Terraform 更改了 license 之后从 Terraform 代码库分支并且开放源码的工具——用于构建VPC、RDS、Redis等基础设施。

但当基础设施就位、开始部署应用程序时，问题出现了。每次部署都不成功，查看日志说是 JDBC 相关错误，DB Proxy 的日志中充斥着诸多 “internal error”，却若隐若现关于具体错误原因的描述。尝试直接通过 MySQL 客户端连接 DB Proxy 时，大多数命令执行都引发错误（help 命令除外）提示：

ERROR 1105 (HY000): Unknown error

错误截图参见：

阅读全文 »

通过实时监控日志里的敏感信息来实现对应用的监控报警

发表于 2023-11-25 更新于 2023-11-27

背景

项目有一些非常重要的后台应用是跑在 AWS 的 lambda 上的，老板和产品非常关注这些应用的执行情况，一旦出错，都会是很严重的故障。

方案变迁

前面做过一些基础设施级别的监控报警，如：监控 AWS 的 RDS 并通过企业微信来报警，那个完全是利用基础设施自动打到 CloudWatch 的基础的 metrics 来做的。

于是，我这里下意识的就想利用现有的 CloudWatch 里现成的 Metrics 来做这个事情，于是我就弄了三个（种）监控：

阅读全文 »

Chromebook 安装 Debian 12 testing

发表于 2023-10-14 更新于 2023-10-27

缘起

本来这台 HP Chromebook 11A G6 EE( 加了一张 128G 的 TF 卡 )，我安装好了 Arch Linux(Xfce)，都弄好了的，但最近在知乎上老被安利说装 Debian 的 testing 版，于是我又开始折腾，把 Debian 13 testing(trixie) 安装到这台 Chromebook 上。

安装时，使用 lvm 分区不成功，系统报错：

partman-lvm: pvcreate: error while loading shared libraries: libaio.so.1: cannot open shared object file: no such file or directory

现在想想可能还有其他办法，比如想办法把这个需要的包注入进去，但当时选择了先用 ext4 分区安装系统自带的 16G 的卡里，装完以后再想办法转成 lvm 并把 TF 卡的空间加进来。

阅读全文 »

监控 AWS 的 RDS 并通过企业微信来报警

发表于 2023-09-13 更新于 2023-09-19

引言

监控在云资源管理中占据了核心地位，它可以帮助我们实时追踪资源状态，从而快速发现并处理潜在的问题。本文将介绍如何利用 AWS CloudWatch 监控云数据库服务RDS，并通过企业微信发送报警通知，以达到高效运维的目的。

阅读全文 »

自动化部署的艺术：用 GitHub Action 部署 Python 编写的 Chalice 应用到 AWS Lambda

发表于 2023-08-12 更新于 2023-08-17

缘起

大家好，我是老杨。在这篇文章中，我将带大家深入了解如何利用 GitHub Action 自动化部署 Chalice 应用到 AWS Lambda。这不仅是一个技术实践，也是对 CI/CD 流程优化的一次探索。

在现代软件开发中，快速迭代和持续部署是提高开发效率的关键。Chalice 是一个用于部署 Python 应用到 AWS Lambda 的框架，而 GitHub Action 提供了一个强大的自动化平台。结合这两者，我们可以创建一个无缝的部署流程。

阅读全文 »

用 GitHub CLI 来查看 GitHub Action 执行情况

发表于 2023-07-09 更新于 2023-07-20

缘起

最近相当长一段时间，都在调 GitHub action 的 workflow 比较多，而 GitHub 官网时不时抽风，于是就有了在命令行看 GitHub action jobs 的执行情况的需求。

阅读全文 »

利用 AWS Session Manager 访问 VPC 内网的资源

发表于 2023-06-07 更新于 2023-06-09

缘起

因为数据库放 VPC 私网网段里了，然后研发有各种直连数据库的需求，其实也有 VPN 方案，但有的研发认为先拨 VPN 不太方便，而我正好认识到 ssm，觉得挺有意思，所以就有了这篇文章的出炉。

其实实际上，都有了 EC2 了，直接上面建账号，几乎所有的 MySQL 的 GUI 客户端，都支持 ssh tunnel 来连数据库，这样就不需要手工命令自己打洞了，MySQL 的 GUI 客户端就一起给你搞定了，这部分还会再水一篇文章。可是，真的值得吗？后话再说。但 ssm plugin 方案比 ssh tunnel 方案更牛逼的一点是：ssm plugin 方案里，EC2 不需要有公网地址！

阅读全文 »

Amazon Linux 2023：Bug 还是特性？

发表于 2023-05-18 更新于 2023-05-19

背景

在 AWS 的一个 VPC 内部的一台 EC2 上搭了一个 OpenVPN 服务器，对，就是从 Client VPN endpoint 迁移到 EC2 上的 OpenVPN 提到的这件事。然后我有台 PC 通过 OpenVPN 客户端软件连了过来。以下是基本信息。

NOTE: IP 地址都不是实际真实情况

EC2（A）
- 公网 IP：1.1.1.1（本地并没有，这个是防火墙或其他设备给做的一对一 map）
- 私网 IP：10.0.0.2/24
- 私网网关：10.0.0.1
- 私网网卡：enX0
- tun 设备名：tun0
- tun 设备 IP：172.16.0.1/24
PC（B）
- tun 设备名：tun0
- tun 设备 IP：172.16.0.2/24

阅读全文 »