运维烂笔头

centralized logging on Amazon Linux 2023

2024-04-17T12:51:23.000Z

背景介绍

最近要做个 log server，把所有服务器的系统日志都收上来。我现在的服务器，操作系统有两种：Amazon Linux 2023 和 Ubuntu，但其实 Ubuntu 又有 22.04 和 24.04 两种，所以，其实是一共有三种操作系统。

好在这三种系统，其缺省跑的日志应用，Amazon Linux 2023 是 systemd-journald，而 Ubuntu(22.04 和 24.04) 都是既跑有 systemd-journald，又跑的有 rsyslogd。这两种日志应用，都是支持集中的日志服务器的，或者很容易支持。但是为什么不就用一套 rsyslogd 的日志服务器呢？毕竟大家都支持 rsyslogd 的。主要是因为 systemd-journald 相对于 rsyslogd 是很新的东西，所以这里也拿出来练练手。

rsyslogd

server

rsyslog 的 log server 配置还是相当简单的

1 2	vim /etc/rsyslog.d/remote.conf # 新建 /etc/rsyslog.d/remote.conf 文件

加入如下内容：

module(load="imudp")
input(type="imudp" port="514")
module(load="imtcp")
input(type="imtcp" port="514")

template(name="RemoteLogsWithHostIPDate" type="string" string="/var/log/remote/rsyslog/%fromhost-ip%_%hostname%/%programname%-%$YEAR%-%$MONTH%-%$DAY%.log")

if ($fromhost-ip == "127.0.0.1") then {
    stop
}
*.* action(type="omfile" dynaFile="RemoteLogsWithHostIPDate")

重启 rsyslogd

1	systemctl restart rsyslog

client

客户端的配置也相当简单

1 2	vim /etc/rsyslog.d/99-remote.conf # 新建文件：/etc/rsyslog.d/99-remote.conf

写入如下内容：

1
2
3

*.* @logserver.xxx.xxx:514
# 用 udp 把日志打到前面配好的 rsyslog 日志服务器
# 地址假设是 `logserver.xxx.xxx`

最后重启 rsyslog

1	systemctl restart rsyslog

systemd-journal-remote

server

dnf install systemd-journal-remote
# install software depended, log server is based on Amazon Linux 2023
systemctl edit systemd-journal-remote.service
# change the configuration of service systemd-journal-remote
# NOTE: must write in the special blank lines
# 注意：必须在指定的空行内输入配置

指定的空行内输入如下内容：

[Service]
ExecStart=
ExecStart=/usr/lib/systemd/systemd-journal-remote --listen-http=-3 --output=/var/log/remote/journal/
LogsDirectory=remote/journal
# 如果 ExecStart 那一行的 --output 参数指定的目录没改的话
# 最后那一行是不需要的

保存以后，使得

1	cat /etc/systemd/system/systemd-journal-remote.service.d/override.conf

能看到之前输入的内容即可。

1 2	mkdir /var/log/remote/journal systemctl edit systemd-journal-remote.socket

指定的空行里输入：

1
2
3

[Socket]
ListenStream=
ListenStream=19532

保存后退出。使得

1	cat /etc/systemd/system/systemd-journal-remote.socket.d/override.conf

输出的内容正是之前输入的即可。

1 2	systemctl enable --now systemd-journal-remote.socket # enable and start systemd-journal-remote.socket

client

dnf install systemd-journal-remote
# install software depended
mkdir /etc/systemd/journal-upload.conf.d/
cat <<EOF > /etc/systemd/journal-upload.conf.d/override.conf
[Upload]
URL=http://logserver.xxx.xxx:19532
EOF

systemctl enable --now systemd-journal-upload.service
# enable and start service of systemd-journal-upload

参考

https://idle.nprescott.com/2024/journald-for-centralized-logging.html

AWS 官方的部署 Python 代码到 Lambda function 上去的两种方法

2024-03-08T10:24:41.000Z

简介

要把 Python 项目部署到 AWS 的 Lambda function，AWS 官方提供了两种方法：Chalice 和 SAM(AWS Serverless Application Model)，当然，其实比较常用的还有第三方的 serverless。

详情

Chalice

Chalice 不仅仅是一个部署工具，它还是一个框架，要是用它需要在 Python 代码里 import 它的包，并在代码里需要的地方使用它的方法做一些操作。

这样才能在用命令 chalice deploy 部署时结合其他配置文件(.chalice/config.json 以及其他需要的 .chalice/policy-xxx.json) 完成部署。

Chalice 其实应该是调用的 AWS SDK for Python 来实现的，因此它也需要先在本地配置 AWS 的 credentials。

SAM

SAM，全称：AWS Serverless Application Model，由名字一看就知道是一个通用的工具，可以用来部署各种语言（比如 Python、Java 和 nodejs）编写的 serverless 应用。

SAM 则是完全基于 AWS CLI，所以本地需要先安装并配置好 AWS CLI 的环境，让 AWS CLI 能跑起来。

SAM 的工作原理其实最终是通过在 AWS 上的 cloudformation 里创建 stack 来完成部署的。所以，cloudformation 有的缺点他都有。

区别

Chalice 仅适用于 Python 语言，而且对代码的侵入性比较强。但优点是完全使用 AWS SDK，不依赖于 AWS CLI 和 cloudformation(尤其是后者，比较不好用)
SAM 更加通用，不侵入代码，但缺点是依赖于 AWS CLI 和 cloudformation（主要是后者）

总结

如果是新起的项目，并打算用 Python 开发的，可以考虑选 Chalice
如果不是用 Python 开发的，肯定不能用 Chalice，大概率选 SAM
如果是已有的项目，现在要部署到 AWS 的 Lambda function，也最好选 SAM

本文由老杨原创，转载请注明出处。

我做的某公司 SRE 职位的面试题

2024-02-13T15:24:31.000Z

简介

这是之前有一家公司招 SRE，我投了简历，然后被给了份题让先做一下，于是便有了这篇“水”文。

当然，最终我并没有拿到这个 offer，最早是说一周内安排面试的，后来又说是这个岗位暂停了。

详情

第一题

题目有效时间只有 4 小时，当时没记下来，现在只能凭记忆力大概写一下了。

大概是系统有个进程在写文件 /tmp/hugelog

第一题第一问

这一问肯定是要求将其找出来（找到 process id）

1	lsof \| grep /tmp/hugelog

seeknhide 773 root 3w REG 252,3 6887024 655475 /tmp/hugelog
seeknhide 773 802 seeknhide root 3w REG 252,3 6887024 655475 /tmp/hugelog
seeknhide 773 804 seeknhide root 3w REG 252,3 6887024 655475 /tmp/hugelog
seeknhide 773 805 seeknhide root 3w REG 252,3 6887024 655475 /tmp/hugelog

1	ps auxww \| grep 773

root 773 0.0 0.2 710484 2136 ? Sl Jun18 0:22 /root/challs/01_seeknhide/seeknhide
root 5877 0.0 0.2 6608 2484 pts/0 S+ 13:53 0:00 grep –color=auto 773

so, the process is /root/challs/01_seeknhide/seeknhide, process id is: 773

第一题第二问

写 /tmp/hugelog 的程序文件已经被删除，但请算出其的 md5 码

1	readlink -f /proc/773/exe

/root/challs/01_seeknhide/seeknhide (deleted)

1 2	cp /proc/773/exe a md5sum a

eba0e82f5b454a492077c67ab89ae033 a

so the execute file is: /root/challs/01_seeknhide/seeknhide, but it was deleted.

and the md5sum is: eba0e82f5b454a492077c67ab89ae033

第一题第三问

将这个 process 杀掉

kill 773

第二题

有一个 app 代码项目，有代码，有 Dockerfile。

第二题第一问

需要 build 并运行一个 docker 容器，其监听主机的 8888 端口，可以用命令 curl http://127.0.0.1:8888 来测试（返回 Hello, World!）。

cd app
docker build -t app:latest .
docker run -it -d -p 8888:4657 app:latest
curl http://127.0.0.1:8888

curl: (52) Empty reply from server

# backup firstly
cp serve.py serve.py.ori
vim serve.py
# change from localhost to 0.0.0.0

docker build -t app:new .
# stop and delete the old container
docker stop cool_germain
docker rm cool_germain
# then run it by new image
docker run -it -d -p 8888:4567 app:new
# test it
curl http://127.0.0.1:8888

Hello, World!

第二题第二问

做了什么修改以及为什么要做这个修改。

我的答案是：fix it by binding host from ‘localhot’ to ‘0.0.0.0’

第三题

日志文件 jwt.log 里有一些数据纪录，有些是真的，有些是假的，需要找出来真的数据纪录的条数。（有代码的要附上源码）

import jwt
import base64
import hashlib
import hmac
import sys

secret = "_welcome_to_chaitin_"

def verify_jwt(token):
    try:
        header, payload, signature = token.split('.')
        header_json = base64.urlsafe_b64decode(header + '===').decode()
        payload_json = base64.urlsafe_b64decode(payload + '===').decode()
        message = f'{header}.{payload}'
        secret_bytes = secret.encode()
        message_bytes = message.encode()
        expected_signature = base64.urlsafe_b64encode(hmac.new(secret_bytes, message_bytes, hashlib.sha256).digest()).rstrip(b'=')
        if signature.encode() == expected_signature:
            return True
    except Exception as e:
        print(f"Error verifying JWT: {e}", file=sys.stderr)
    return False


authentic_count = 0
fake_count = 0

print("Script execution started.")
with open('jwt.log', 'r') as file:
    for line in file:
        jwt_token = line.strip()
        if verify_jwt(jwt_token):
            authentic_count += 1
        else:
            fake_count += 1
print("Script execution finished.")

print(f"Number of authentic JWTs: {authentic_count}")
print(f"Number of fake JWTs: {fake_count}")

1	python3 jwt.py

Script execution started.
Script execution finished.
Number of authentic JWTs: 768
Number of fake JWTs: 90
Script execution started.
Script execution finished.
Number of authentic JWTs: 768
Number of fake JWTs: 90

so, The number of authentic JWTs is: 768

第四题

有个文件：make_me_happy

第四题第一问

尽量找出这个文件相关的信息。

这个程序执行时会去连本地的一个接口，把这个接口找出来。

1	file make_me_happy

make_me_happy: ELF 64-bit LSB executable, x86-64, version 1 (SYSV), dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, Go BuildID=w3cEj7RamW7-qGzf3Nhs/UpW-8zX_rMqqAZOxch9q/g8QtiW2olQfv2K-oXiQs/KuNmNVsa3dhXuFD3EuZR, with debug_info, not stripped

1	ls -l make_me_happy

-rw-r–r– 1 root root 6777227 Feb 16 2023 make_me_happy

has no execute permission.

1	ldd make_me_happy

linux-vdso.so.1 (0x00007ffcd23ca000)
libresolv.so.2 => /lib/x86_64-linux-gnu/libresolv.so.2 (0x00007fdcb92fc000)
libc.so.6 => /lib/x86_64-linux-gnu/libc.so.6 (0x00007fdcb90d4000)
/lib64/ld-linux-x86-64.so.2 (0x00007fdcb9319000)

1	strings make_me_happy \| grep -iE '(http\|https\|server\|socket)://127'

……invalid signature: parent certificate cannot sign this kind of certificatehttp://127.0.0.1:7777/pow?q=give_me_a_string_whose_sha256sum_in_hex_begins_with_%srefusing to use HTTP_PROXY value in CGI environment……

1
2
3

# make make_me_happy excutable with /usr/bin/chmod has no execute permission
# using python3
python3

1 2	import os os.chmod('make_me_happy', 0o755)

1	strace ./make_me_happy

……openat(AT_FDCWD, “/root/.config/make_me_happy.conf”, O_RDONLY|O_CLOEXEC) = -1 ENOENT (No such file or directory)
write(1, “Not OK\n”, 7Not OK

1 2	touch /root/.config/make_me_happy.conf strace ./make_me_happy

……connect(7, {sa_family=AF_INET, sin_port=htons(7777), sin_addr=inet_addr(“127.0.0.1”)}, 16) = -1 EINPROGRESS (Operation now in progress)
epoll_ctl(4, EPOLL_CTL_ADD, 7, {events=EPOLLIN|EPOLLOUT|EPOLLRDHUP|EPOLLET, data={u32=4114591560, u64=140651408633672}}) = 0
epoll_pwait(4, [{events=EPOLLIN|EPOLLOUT|EPOLLERR|EPOLLHUP|EPOLLRDHUP, data={u32=4114591560, u64=140651408633672}}], 128, 0, NULL, 0) = 1
getsockopt(7, SOL_SOCKET, SO_ERROR, [ECONNREFUSED], [4]) = 0
epoll_ctl(4, EPOLL_CTL_DEL, 7, 0xc0000bf074) = 0
close(7) = 0
write(1, “Not OK\n”, 7Not OK

1	nc -4l 7777 &

[1] 7379

1	./make_me_happy

GET /pow?q=give_me_a_string_whose_sha256sum_in_hex_begins_with_7865 HTTP/1.1
Host: 127.0.0.1:7777
User-Agent: Go-http-client/1.1
Accept-Encoding: gzip

第四题第二问

想办法让这个程序在执行的时候，正确返回。

1	python3 server.py &

Start HTTP server on port 7777…

1	./make_me_happy

127.0.0.1 - - [19/Jun/2024 17:19:02] “GET /pow?q=give_me_a_string_whose_sha256sum_in_hex_begins_with_e7ba HTTP/1.1” 200 -
OK! Thank you, I’m happy now!

echo $?

0

第四题第三问

贴出来第二问的源码（如果有的话）。

我的答案：

the whole code(server.py) is:

import hashlib
import string
import random
from urllib.parse import urlparse, parse_qs
from http.server import SimpleHTTPRequestHandler, HTTPServer

def find_sha256_prefix(prefix):
    while True:
        candidate = ''.join(random.choices(string.ascii_letters + string.digits, k=16))
        sha256sum = hashlib.sha256(candidate.encode()).hexdigest()
        if sha256sum.startswith(prefix):
            return candidate

class CustomHandler(SimpleHTTPRequestHandler):
    def do_GET(self):
        if self.path.startswith("/pow"):
            query_components = parse_qs(urlparse(self.path).query)
            prefix_template = query_components.get('q', [''])[0]

            if "with_" in prefix_template:
                prefix = prefix_template.split("with_")[1]
                suffix = find_sha256_prefix(prefix)
                response = suffix.encode()
                self.send_response(200)
                self.send_header('Content-type', 'text/plain')
                self.send_header('Content-length', len(response))
                self.end_headers()
                self.wfile.write(response)
        else:
            self.send_response(404)
            self.end_headers()

def run():
    server_address = ('', 7777)
    httpd = HTTPServer(server_address, CustomHandler)
    print('Start HTTP server on port 7777...')
    httpd.serve_forever()

if __name__ == "__main__":
    run()

总结

这倒还真是 SRE 的题目，基本上都跟开发有关系。这里由于需要的环境简单，而且公司方面提供了一个完整的试验环境，所以所有的 python 程序我都做过测试。

本文由老杨原创，转载请注明出处。

我做的某公司 DevOps 远程职位的面试题

2024-01-19T13:33:51.000Z

简介

这是之前有一家海外公司招 DevOps 工程师，我投了简历，期望薪资写了薪资范围的最下限，然后被给了份题让先做一下，于是便有了这篇“水”文。

当然，最终我并没有拿到这个 offer，甚至连下一轮见 CTO 的机会都没有。（关于这个，我其实心里还是有一点小小的不服气的。）

题目详情

Q1

写一个定时执行的 Bash 脚本，每月的一号凌晨 1 点对 MongoDB 中 test.user_log 表进行备份、清理，具体要求如下：

首先备份上个月的数据，备份完成后打包成.gz文件
备份文件通过 sftp 传输到 backup [bakup@bakup.xxx.com] 服务器上，账户已经配置在~/.ssh/config
备份完成后，再对备份过的数据进行清理: create_on [2024-01-01 03:33:11]
如果脚本执行失败或者异常，则调用 https://monitor.xxx.com/webhook/mongodb
这个表每日数据量大约在 200w 条, 单条数据未压缩的存储大小约 200B

Q2

根据要求提供一份 Nginx 配置, 要求如下：

域名：xxx.com, 支持 https、HTTP/2
非 http 请求经过 301 重定向到 https
根据 UA 进行判断，如果包含关键字 “Google Bot”, 反向代理到 server_bot[bot.xxx.com] 去处理
/api/{name} 路径的请求通过 unix sock 发送到本地 php-fpm，文件映射 /www/api/{name}.php
/api/{name} 路径下需要增加限流设置，只允许每秒 1.5 个请求，超过限制的请求返回 http code 429
/statics/ 目录下是纯静态文件，需要做一些优化配置
其它请求指向目录 /www/xxx/, 查找顺序 index.html –> public/index.html –> /api/index

Q3

现有一台服务器，如下图所示上面通过默认安装并运行了 3 个 docker 容器，需要通过 iptables 进行网络配置。请给出命令：

只有 Docker_A 与 Docker_B 之间可以相互通信，Docker_C 不能访问其它两个容器
只允许内网 IP 为 192.168.1.1 - 192.168.1.30 的内网 IP 访问所有容器
Docker_A:8080 与 Docker_C:80 通过与自身相同端口对外网提供服务, Docker_B:3316 不对外网提供服务
所有配置需要固化，重启服务器自动生效

Q4

已知生产环境数据库结构如图所示:

graph LR;
    master-->slave_1;
    master-->slave_2;
    slave_1-->slave_3;
    slave_2-->slave_4;

因为 master 偶尔有硬件问题，需要先将 slave_1 提升为新 master, 然后旧 master 变成 slave_1。请给出操作方案和关键命令。

主从数据库服务均处于独立服务器上，有独立的IP;
应用程序写入数据库通过域名 mysql-master.xxx.com 访问;
应用程序读取数据通过 Haproxy(mysql-slave.xxx.com) 访问所有从库 01-04
尽量平滑处理，不影响生产环境

Q5

在生产环境中，应用程序是通过 Haproxy 来读取 slave 集群，但是偶尔会产生

SQLSTATE[HY000]: General error: 2006 MySQL server has gone away

的错误，请根据经验，给出一排查方案与可能的方向，与开发一起定位问题, 现已经排查：

故障发生时，服务器之间防火墙正常，服务器之间可以正常通信;
故障SQL均可以正常查询，同时不存在性能问题;
故障频率没有发现特别规律，与服务器负载没有正相关;
查看各服务的日志，只发现了错误信息，但没有进一步的说明;

graph LR;
    Service-->Haproxy;
    Haproxy-->slave_1;
    Haproxy-->slave_2;
    Haproxy-->slave_3;
    Haproxy-->slave_4;

我的答案

A1

如下是备份用的 bash 程序，放在任意合适的目录即可，不过需要记下来路径，cron 的程序 backup_mongo 里要用到，并且给其赋予可执行权限。

#!/bin/bash

# filename: backup_mongo.sh

LAST_MONTH_START=$(date -d "$(date +%Y-%m-01) -1 month" +%Y-%m-01)
LAST_MONTH_END=$(date -d "$(date +%Y-%m-01)" +%Y-%m-%d)

DATABASE="test"
COLLECTION="user_log"
BACKUP_DIR="backup"
BACKUP_PATH="${BACKUP_DIR}/${LAST_MONTH_START}_${LAST_MONTH_END}_user_log_backup.gz"
LOG_FILE="${BACKUP_DIR}/backup_log_$(date +%Y%m%d_%H%M%S).txt"
SFTP_SERVER="bakup@bakup.xxx.com"
WEBHOOK_URL="https://monitor.xxx.com/webhook/mongodb"

[ -e ${BACKUP_DIR} ] || mkdir -p ${BACKUP_DIR}

echo "$(date +"%Y-%m-%d %H:%M:%S") - Starting backup and compression for ${DATABASE}.${COLLECTION} for the period from ${LAST_MONTH_START} to ${LAST_MONTH_END}" | \
        tee -a "$LOG_FILE"
{
        mongodump --db="$DATABASE" --collection="$COLLECTION" \
                --gzip --archive="$BACKUP_PATH" \
                --query="{ 'create_on': { '\$gte': { '\$date': '${LAST_MONTH_START}T00:00:00.000' }, '\$lt': { '\$date': '${LAST_MONTH_END}T00:00:00.000' } } }"

        sftp $SFTP_SERVER <<< $'put '"${BACKUP_PATH}"

        mongo "$DATABASE" \
                --eval \
                "db.$COLLECTION.remove({ 'create_on': { '\$gte': { '\$date': '${LAST_MONTH_START}T00:00:00.000' }, '\$lt': { '\$date': '${LAST_MONTH_END}T00:00:00.000' } } });"
        echo "$(date +"%Y-%m-%d %H:%M:%S") - Backup and clean up success." | tee -a "$LOG_FILE"
} || {
        echo "$(date +"%Y-%m-%d %H:%M:%S") - Backup or clean up script failed, sending message..." | tee -a "$LOG_FILE"
        curl -X POST "$WEBHOOK_URL" --data 'Backup or clean up script failed'
        exit 1
}

如下是 cron 的配置文件 backup_mongo 的内容：

SHELL=/bin/bash
PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin

0 1 1 * * root /path/to/backup_mongo.sh > /dev/null 2>&1

这个文件请放在目录 /etc/cron.d/ 下

A2

如果是 Debian 系的系统，请把文件 ipo.com.conf 放到 /etc/nginx/sites.available/ 目录下并在 /etc/nginx/sites.enable/ 下做一个软链。
但如果是红帽系的系统，请把文件 ipo.com.conf 放到目录 /etc/nginx/conf.d/ 下。

以下是文件 xxx.com.conf 的内容：

limit_req_zone $binary_remote_addr zone=api_per_ip:10m rate=90r/m; # 1.5r/s by per IP
limit_req_zone $server_name zone=api_per_server:10m rate=10r/s; # 1.5r/s by per server

upstream server_bot {
    server bot.xxx.com:443;
}

server {
    listen              80;
    listen              [::]:80;
    server_name         xxx.com;
    return              301 https://$host$request_uri;
}

server {
    listen              443 ssl;
    http2               on;
    server_name         xxx.com;
    ssl_certificate     xxx.com.crt;
    ssl_certificate_key xxx.com.key;
    ssl_protocols       TLSv1 TLSv1.1 TLSv1.2 TLSv1.3;
    ssl_ciphers         HIGH:!aNULL:!MD5;
    # 或者直接启用 HSTS
    # add_header Strict-Transport-Security "max-age=31536000; includeSubDomains" always;
    if ($http_user_agent ~ "Google Bot") {
        set $google_bot true;
    }
    location /api/ {
        limit_req zone=api_per_ip burst=5 nodelay; # or using api_per_server
        limit_req_status 429;
        fastcgi_pass unix:/var/run/php-fpm.sock;
        fastcgi_param SCRIPT_FILENAME /www$fastcgi_script_name.php; # /api/a -> /www/api/a.php
    }
    location /statics/ {
        autoindex       off;
        gzip            on;
        gzip_comp_level 2;
        gzip_min_length 1000;
        gzip_proxied    expired no-cache no-store private auth;
        gzip_types      text/plain text/css application/json application/x-javascript text/xml application/xml application/xml+rss text/javascript;
        expires         365d;
        access_log      off;
    }
    location / {
        if ($google_bot = 'true') {
            proxy_pass https://server_bot;
            proxy_ssl_certificate         /etc/nginx/client.pem;
            proxy_ssl_certificate_key     /etc/nginx/client.key;
            proxy_ssl_protocols           TLSv1 TLSv1.1 TLSv1.2;
            proxy_ssl_ciphers             HIGH:!aNULL:!MD5;
            proxy_ssl_trusted_certificate /etc/nginx/trusted_ca_cert.crt;

            proxy_ssl_verify        on;
            proxy_ssl_verify_depth  2;
            proxy_ssl_session_reuse on;
        }
    }
    root /www/xxx/;
    index index.html public/index.html /api/index;
}

A3

原来给出来的四个需求：

只有Docker_A 与 Docker_B 之间可以相互通信，Docker_C 不能访问其它两个容器;
只允许内网IP为 192.168.1.1 - 192.168.1.30 的内网IP访问所有容器;
Docker_A:8080 与 Docker_C:80 通过相同端口对外网提供服务, Docker_B:3316 不对外网提供服务;
所有配置需要固化，重启服务器自动生效;

3.1

因为如果不做特殊设置，Docker 容器之间是可以直接互通的，所以这里只需要限制 Docker_C 不能访问 Docker_A 和 Docker_B 即可

1 2	iptables -I DOCKER-USER -s 172.17.0.2 -d 172.17.0.4 -j REJECT iptables -I DOCKER-USER -s 172.17.0.3 -d 172.17.0.4 -j REJECT

这样设置完毕，反向 172.17.0.4->172.17.0.2 和 172.17.0.4->172.17.0.3 也是不通的，因为回包被拒了。所以反向的 rules 就不用写了。

3.2

第二问有些没太理解，理论上来讲，Docker 容器的网络跟 host 外面是隔离的，无论是 host 上 eth_private 还是 eth_public 上来的流量，应该都是不能直接访问任何容器的。

我只能大概用管饭文档上的一个利子来试着看是不是满足需求：

1
2
3

iptables -I DOCKER-USER -m iprange \
    -i eth_private ! --src-range 192.168.1.1-192.168.1.30 \
    -j DROP

3.3

iptables -t filter -A DOCKER -d 172.17.0.2/32 \
    -i eth_public -o Docker0 -p tcp \
    -m tcp --dport 8080 -j ACCEPT
iptables -t filter -A DOCKER -d 172.17.0.3/32 \
    -i eth_public -o Docker0 -p tcp \
    -m tcp --dport 80 -j ACCEPT
iptables -t nat -A POSTROUTING -s 172.17.0.2/32 \
    -d 172.17.0.2/32 -p tcp -m tcp \
    --dport 8080 -j MASQUERADE
iptables -t nat -A POSTROUTING -s 172.17.0.3/32 \
    -d 172.17.0.3/32 -p tcp -m tcp \
    --dport 80 -j MASQUERADE
# 以上两句我其实也没想明白，我是看了 Docker host 的 iptables 的实际情况照着抄的
iptables -t nat -A DOCKER -i eth_public -p tcp \
    -m tcp --dport 8080 -j DNAT \
    --to-destination 172.17.0.2:8080
iptables -t nat -A DOCKER -i eth_public -p tcp \
    -m tcp --dport 80 -j DNAT \
    --to-destination 172.17.0.3:80

3.4

这个问题的答案依 Linux 发布版的不同以及具体软件的不同而不同

iptables-save > /etc/iptables/rules.v4
# 或者是红帽系的话
iptables-save > /etc/sysconfig/iptables
# or
service iptables save

A4

这道题我基本上考虑的最多的是怎么样保持数据一致性。系统可用性的考虑反倒是其次。

修改域名解析

从域名 mysql-slave.xxx.com 解析，将 slave_1 摘出来
尽量将域名 mysql-master.xxx.com 到 master 的指向去掉

逐级设置成 readonly

将 master 设置成 readonly(set global read_only=ON;set global super_read_only=ON;)
等 slave_1 和 slave_2 的数据跟 master 同步之后（show slave status 里看），将 slave_1 和 slave_2 设置为 readonly
最后等 slave_3 的数据同步之后，将其也设为 readonly

slave_1 变成 master

slave_3 从 slave_1 下面拆出来，挂到 slave_2 下面（用命令 STOP SLAVE IO_THREAD;CHANGE MASTER TO slave_2;START SLAVE IO_THREAD）
slave_1 上停掉 slave，起来 master（用命令 stop slave;reset slave all;show master status）
slave_1 上还要启用 replication 的用户

slave_2 挂到 slave_1(new master) 下面

slave_2 上执行 STOP SLAVE IO_THREAD;CHANGE MASTER TO slave_1;START SLAVE IO_THREAD

master 变成 slave

master 上执行 reset master; reset slave all; CHANGE MASTER TO slave_1

slave_3 从 slave_2 下拆出来，挂到 master 下面

slave_3 下执行 STOP SLAVE IO_THREAD;CHANGE MASTER TO master;START SLAVE IO_THREAD

收尾工作：关掉 readonly 并改回域名解析

从 slave_1(new master) 开始，逐级关掉 readonly(set global read_only=OFF;)
确认数据同步正常之后，修改域名解析：
- 将域名 mysql-slave.xxx.com 将 master（new slave）加进去
- 将域名 mysql-master.xxx.com 指向 slave_1(new master)

A5

2006 MySQL server has gone away

这个错误的坑我之前刚刚踩过（说是刚刚，其实也是有几个月了），这个错误出现的原因主要就是因为服务器端认为某个连接的 session 超时了，就给强制断掉了，这边客户端不知道，还在傻乎乎的发消息，于是就会得到错误提示：has gone away，控制这种超时的参数有两个：wait_timeout 和 interactive_timeout，但是实际上影响超时的是 session 级别的 wait_timeout 参数。

而 session 级别的 wait_timeout 参数在客户端交互式登录（通常的 MySQL 客户端登录）时，继承的是 global 的 interactive_timeout 参数；而在非交互式登录（比如程序或 jdbc 这种连上来的情况），继承的是 global 级别的 wait_timeout 参数。

所以解决这个问题也有很多办法，最简单的，将这两个参数的值调大。其实这两个参数的缺省值是 8 小时，已经不小了。

要是仅从排错的角度出发的话，那么肯定要 MySQL server 要看日志、HAProxy 要看日志，出错的客户端要看日志，还要在出错的时候看 MySQL server 的状态（show processliss 什么的）

我刚看了有文档说，HAProxy 的 timeout server 和 timeout client 的两个值要跟 MySQL server 上的 session 级的 wait_timeout 一致。

还有，客户端连 HAProxy 的 MySQL 代理时，结束时要显式的主动断开连接。这个我想还好，最怕就是有连接池连 HAProxy 的 MySQL 的代理，我们当时踩坑也是因为有连接池……如果有，大概率是连接池的问题。

总结

我的答案不一定都对，因为我也没有环境去具体测试，但如果这些题是工作中给到我的真实工作内容，我有信心很好的完成他们。

本文由老杨原创，转载请注明出处。

Terraform 官方文档配置导致的 DB Proxy 故障案例

2023-12-16T12:33:19.000Z

起因

在搭建新环境时，我们选择了 OpenTofu——这是在 Terraform 更改了 license 之后从 Terraform 代码库分支并且开放源码的工具——用于构建VPC、RDS、Redis等基础设施。

但当基础设施就位、开始部署应用程序时，问题出现了。每次部署都不成功，查看日志说是 JDBC 相关错误，DB Proxy 的日志中充斥着诸多 “internal error”，却若隐若现关于具体错误原因的描述。尝试直接通过 MySQL 客户端连接 DB Proxy 时，大多数命令执行都引发错误（help 命令除外）提示：

ERROR 1105 (HY000): Unknown error

错误截图参见：

问题排查

经过一系列尝试后，我联系了 AWS 的客服，并提交了一个 case。经过一整天（案例仍在 “work in progress”）等待后，AWS 给出了反馈。在一串冗长的信息之后，技术支持终于指出了潜在有用的信息，提到如果 parameters 中的 init_query 被设置为 "SET x=1, y=2" 时，可能会触发这个问题。

网络上也有人分享了类似的困境。

这让我想起在 OpenTofu 中配置 DB Proxy（其实是在资源 aws_db_proxy_default_target_group 里）时，我确实设定了 init_query = "SET x=1, y=2"。为什么会这样呢？因为这是遵循了 Terraform（OpenTofu）官方文档给出的示例：Resource: aws_db_proxy_default_target_group，文档截图如下：

尽管我仔细阅读了关于 init_query 的文档说明，做过 MySQL DBA 的我也明确知道 init_query 的含义和用途，但出于对官方文档示例的信赖，还是采纳了这一配置。

解决方案

解决问题过程颇费周折。初始时，我尝试在 db_proxy.tf 中注释掉 init_query 相关行，并执行 tofu play; tofu apply 进行更改。尽管提示显示已变更，web 控制台的显示却未有更新。于是，我又把 init_query 设置为空值后重新运行命令。提示虽然依旧显示已修改，但是 web 控制台的状态仍然未变。最终，我不得不直接在 web 控制台进行修改才得以生效。之后，再次运行 tofu plan 确认 Terraform(OpenTofu) 状态与控制台同步，这才安心。

结语

本案例告诉我们，即便是官方文档，也不应该盲目信任。重要的是深入理解配置中每个参数的具体含义和必要性，否则可能会带来意想不到的麻烦。

迷惑性的问题

这个问题起初可能并未被触发，因为最初（用 OpenTofu）构建完 DB Proxy 后我肯定进行了连接测试的，当时并未发现问题。而且就在部署问题应用（java）之前，不论是 Python 还是 Node.js 应用，均未出现部署错误（ Java 项目可能最初出错是因为角色没有 VPC access 权限，但权限解决后部署时还报错则是因为那个时候我已经触发了 DB Proxy 的配置问题让其服务几乎不可用了）。

DB Proxy 正式被触发故障是在尝试将另一环境的 RDS 表结构导入时。我是通过 DB Proxy 来进行数据导入的，当时未导入完成便报错失败，从此任何命令（除了 help 命令）都返回错误：ERROR 1105 (HY000): Unknown error。这次故障被触发的原因和机理也非常值得研究。

通过实时监控日志里的敏感信息来实现对应用的监控报警

2023-11-25T11:37:31.000Z

背景

项目有一些非常重要的后台应用是跑在 AWS 的 lambda 上的，老板和产品非常关注这些应用的执行情况，一旦出错，都会是很严重的故障。

方案变迁

前面做过一些基础设施级别的监控报警，如：监控 AWS 的 RDS 并通过企业微信来报警，那个完全是利用基础设施自动打到 CloudWatch 的基础的 metrics 来做的。

于是，我这里下意识的就想利用现有的 CloudWatch 里现成的 Metrics 来做这个事情，于是我就弄了三个（种）监控：

利用官方文档里提到的 lambda 的 Errors 这个基础 Metric 做了一个
利用官方文档里提到的 API Gateway 的基础 Metrics: 4XXError 和 5XXError 做了一个（其实是两个，4XX、5XX 各一个）
然后又用给 lambda function 的日志新建 metric filter 的方法，新建了一个 metric，用来统计日志里敏感信息信息的次数，最后在 CloudWatch 里用这个新建的 metric 来做的报警

用这三种方案有一个好处，就是可以沿用之前已有的监控 AWS 的 RDS 并通过企业微信来报警里的 CloudWatch->SNS->Lambda function 这种现成的框架。

但等做完了，测试过报警信息了，才发现这三种方案都有一个共同的缺点：这三种都是基于 metrics 来做的报警，但是 metrics 其实只关注 metrics 的数量，报警依赖的是数量跟阈值的比较，报出来的上下文信息也只能是老状态是啥、新状态是啥；为什么触发报警（metric 次数超过阈值什么的），完完全全不能带出原始日志里的信息。所以，往往关心出错具体信息的技术收到报警以后也会一头雾水，完全不知道哪里出错。

所以，改方案了，在重要的 lambda function 的日志里，新建一个 Lambda subscribtion filter，设置当在日志里发现敏感信息后，触发一个 Lambda function: A。在这个名叫 A 的 Lambda function 里，实现报警的功能。这个方案神似当年我们在实体机时代通过 tail -f xxxx.log | grep "xxxx" | /path/to/a.py 来检测重要程序的日志里的关键词“xxxx”来报警的套路。

具体步骤

编写 Lambda function

名叫 “A” 的报警 Lambda function 的代码如下：

import json
import os
import gzip
import base64
import http.client
import urllib.parse

WEBHOOK_TOKEN = os.environ['WX_TOKEN']  # 你的企业微信 Webhook Token
WEBHOOK_URL = "qyapi.weixin.qq.com"

def send_to_wechat_work(account_id, region_name, log_group_name, log_stream_name, message):
    # URL编码日志组和日志流名称
    log_group_encoded = urllib.parse.quote(log_group_name, safe='')
    log_stream_encoded = urllib.parse.quote(log_stream_name, safe='')
    # 构造CloudWatch日志链接
    log_url = f"https://console.aws.amazon.com/cloudwatch/home?region={region_name}#logsV2:log-groups/log-group/{log_group_encoded}/log-events/{log_stream_encoded}"
    # 创建企业微信消息格式
    wechat_msg = {
        "msgtype": "markdown",
        "markdown": {
            "content": f"#### :rotating_light: Lambda Error Alert :rotating_light:\n"
                       f"**Account ID:**{account_id}\n\n"
                       f"**Log Group:**{log_group_name}\n\n"
                       f"**Log Stream:**{log_stream_name}\n\n"
                       f"**Message:**\n\n"
                       f"```\n{message}\n```\n\n"  # Markdown code block
                       f"[Click here to view the log]({log_url})"
        }
    }
    # 发送POST请求至企业微信
    conn = http.client.HTTPSConnection(WEBHOOK_URL)
    headers = {'Content-Type': 'application/json'}
    body = json.dumps(wechat_msg)
    conn.request("POST", f"/cgi-bin/webhook/send?key={WEBHOOK_TOKEN}", body, headers)
    response = conn.getresponse()
    data = response.read()
    conn.close()
    return data

def lambda_handler(event, context):
    try:
        # 解压缩日志数据
        log_data = base64.b64decode(event['awslogs']['data'])
        uncompressed_data = gzip.decompress(log_data)
        log_events_data = json.loads(uncompressed_data)

    except Exception as e:
        print(f"Error processing log data: {str(e)}")
        return {'statusCode': 500, 'body': json.dumps('Error processing log data')}

    # 获取日志组和流信息，并提取账户 ID 和区域(region)名
    log_group_name = log_events_data.get('logGroup', 'Unknown log group')
    log_stream_name = log_events_data.get('logStream', 'Unknown log stream')
    account_id = context.invoked_function_arn.split(":")[4]
    region_name = context.invoked_function_arn.split(":")[3]
    
    # 过滤并发送每个有效的日志消息
    messages_sent = 0
    for log_event in log_events_data.get('logEvents', []):
        message = log_event.get('message').strip()
        if message:  # 检查消息不是空的或者只包含空白字符
            print("message:", message)
            send_to_wechat_work(account_id, region_name, log_group_name, log_stream_name, message)
            messages_sent += 1

    if messages_sent == 0:
        print("No valid log events to send.")

    return {'statusCode': 200, 'body': json.dumps('Messages sent to WeChat Work')}

建立 Lambda subscribtion filter 并指向上一步创建的 Lambda function

在 Lambda 的页面里，找到需要监控报警的那个“重要”的后台应用：”B”，点击进入 “B” 的页面，点击 “Configration” 这个 tab，然后在左侧栏里点击 “Monitoring and operations tools”，这时，在中间栏的 “Logging configuration” 部分就能看到 “CloudWatch log group” 了，大概是像这样：“/aws/lambda/B”，同时这也还是一个链接，直接点击就会到 B 在 CloudWatch 里的 Log group 了。

在这个具体的 Log group 的页面里，点击 “Subscription filters” 这个 tab，点击右侧叫 “Create” 的下拉按钮，在弹出来的菜单里点击 “Create Lambda subscription filter”，然后

在 “Lambda function” 里选择之前的那个叫 “A” 的 Lambda function
“Subscription filter pattern” 里填上匹配日志的信息，比如我用的是“%xxxx%”
“Subscription filter name” 随便写

然后，点击右下按钮 “Start streaming” 就可以了。

总结

都很简单是吧，的确很简单。但是没用过 AWS 或对 AWS 不熟悉的人来说，估计是想不到 AWS 还有这些“奇奇怪怪”的功能的。顺便说一个冷知识，在 AWS 的 Serverless Application Repository 这个服务下的 Available applications 里，有个叫 “WeChat-Notifier” 的应用，直接可以用来做报警！直接支持微信和企业微信。所以呀，其实就报警到（企业）微信这事儿，原本都不用写代码的，直接调用这个就好了！下次有时间再写写关于 “WeChat-Notifier” 的内容。

Chromebook 安装 Debian 12 testing

2023-10-14T12:33:28.000Z

缘起

本来这台 HP Chromebook 11A G6 EE( 加了一张 128G 的 TF 卡 )，我安装好了 Arch Linux(Xfce)，都弄好了的，但最近在知乎上老被安利说装 Debian 的 testing 版，于是我又开始折腾，把 Debian 13 testing(trixie) 安装到这台 Chromebook 上。

安装时，使用 lvm 分区不成功，系统报错：

partman-lvm: pvcreate: error while loading shared libraries: libaio.so.1: cannot open shared object file: no such file or directory

现在想想可能还有其他办法，比如想办法把这个需要的包注入进去，但当时选择了先用 ext4 分区安装系统自带的 16G 的卡里，装完以后再想办法转成 lvm 并把 TF 卡的空间加进来。

具体步骤

ext4 在自带存储上安装

自带存储的设备号是：/dev/mmcblk1，容量只有 16G

这一步基本上没什么问题，我只讲一下最后自带存储的分区：

分区 1，vfat 格式，挂在 /boot/efi
分区 2，ext4 格式，挂在 /

将 / 迁移到 TF 卡（lvm）

这一步应该是重中之重，难度、复杂度都在这里。

处理 TF 卡

TF 卡的设备号是：/dev/mmcblk0，容量 128G

apt-get install lvm
# 系统原来没装 lvm
wipefs -fa /dev/mmcblk0
# TF 卡上原来有数据，所以需要先 wipefs 干一下
pvcreate /dev/mmcblk0
# 也可以先对设备分区了再创建 pv，但也可以直接在裸设备上做
vgcreate vg_root /dev/mmcblk0
lvcreate -L 116G -n lv_root vg_root
# TF 卡容量是 128G，可用为 116G 多一些，这里 lv 设 116G 大小，
# 其实多大没关系（因为 lv 是随时可以扩的），但只要小于可用的就行
mkfs.ext4 /dev/vg_root/lv_root

迁移数据到 /dev/vg_root/lv_root

mkdir /mnt/new_root
# 创建挂载点
mount /dev/vg_root/lv_root /mnt/new_root
# 把新的根区挂载上
tar -cvpf - --one-file-system --acls --xattrs \
    --selinux / | tar -C /mnt/new_root -xf -
# 把数据倒到新的根区上
cp -aux /dev /mnt/new_root
# 把 /dev 下有更新的内容拷贝过来

接着还要修改新根区下 etc/fstab 的内容，将挂载在 / 的设备改成 /dev/vg_root/lv_root

1 2	vi /mnt/new_root/etc/fstab # 这里之所以用 vi 而不是 vim 那是因为 vim 这个软件还尚未安装

mount --bind /dev /mnt/new_root/dev
chroot /mnt/new_root
mount -t proc /proc /proc
mount -t sysfs /sys /sys
vgscan
vgchange -ay
mkinitramfs -o /boot/initrd-`uname -r`.lvm.img `uname -r`
# 上面这一步我感觉应该可以不做，因为上面 `apt-get install lvm`
# 时我貌似有看到重新制作 initrd 的 image 的情况，看吧，
# 这一句的目的是为了给 initrd 的 image 文件添加 lvm 的支持
exit
# 退出 chroot 状态
cp /mnt/vg_root/lv_root/boot/initrd-`uname -r`.lvm.img /boot
# 上面这一句我感觉其实也可以不做，因为老 / 区最终是要被干掉的呀

最后的收尾工作：

修改 /mnt/new_root/boot/grub/grub.conf 的内容，最好新增一条 menuentry，内容拷贝原有的
- 把显示的名字改了
- 把 initrd 的 image 文件改成前面新做成的 initrd 的 image 文件
- 如果还有涉及到 root 的 uuid 什么的，也要将原来的设备的 uuid 改成新 root 的设备 /dev/vg_root/lv_root 的 uuid（命令 blkid 里可以看到，注意：有的设备有 UUID 还有 PARTUUID，一般来讲原来用的是哪个替换的时候也要用哪个替换，如果没有对应的，那么就用 UUID 来替换）
修改文件 /boot/efi/EFI/debian/grub.cfg，同样也是做 uuid 的替换

最后，重启系统迁移这一步应该就好了

1	shutdown -r now

将自带存储加入新 / 区的 lv

自带的存储的设备是：/dev/mmcblk1，老根区的设备号是：/dev/mmcblk1p2

电脑重新起来后，登录进去

wipefa -fa /dev/mmcblk1p2
pvcreate /dev/mmcblk1p2
# 创建 pv(physical volume)
vgextend vg_root /dev/mmcblk1p2
# 将老根分区所在存储加入到 vg_root 这个 vg（volume group） 里来
lvextend -l +100%FREE /dev/vg_root/lv_root
# 将 lv_root 这个 lv(logical volume) 的大小扩展到所有未用空间
resize2fs /dev/vg_root/lv_root
# 将 lv_root 这个 lv 上的 ext4 文件系统的大小扩展到整个 lv

如此，便完成了。

监控 AWS 的 RDS 并通过企业微信来报警

2023-09-13T10:27:19.000Z

引言

监控在云资源管理中占据了核心地位，它可以帮助我们实时追踪资源状态，从而快速发现并处理潜在的问题。本文将介绍如何利用 AWS CloudWatch 监控云数据库服务RDS，并通过企业微信发送报警通知，以达到高效运维的目的。

解决方案概述

本文所述的监控方案包含以下几个关键步骤：

设定 CloudWatch 告警规则，用于监控 RDS 参数并定义报警条件。
创建一个 SNS(Simple Notification Service)主题来接收 CloudWatch 的报警通知。
开发一个 Lambda 函数，用于处理 SNS 的报警通知，并将其转发到企业微信。
设置 SNS 主题触发的 Lambda 函数，以启用自动报警功能。

这里有个知识点需要了解，否则就会有困惑：RDS 的 event 是怎么到 CloudWatch 里去的呢？是这样的，RDS 基础的 Metrics 是会自动打到 CloudWatch 里去的。所以我们如果只是监控这些基础的 Metrics 的话是不用在 EventBridge 里再建规则把 RDS 的 event 打到 CloudWatch 里了。

开始之前：在企业微信中创建机器人并获取 Webhook Token

在设置 AWS CloudWatch 监控和报警之前，我们需要先在企业微信中创建一个机器人，并获取它的 Webhook Token，后续步骤中将会用到。以下是创建机器人的操作步骤：

登录企业微信，并打开目标群聊。
点击群聊信息页面内的“群机器人”选项，跟随提示操作，点击“添加”按钮。
弹出页面中选择“新建”。
在新界面中设定机器人的名称，并可选择一个头像。
创建机器人后，系统会生成一个 Webhook URL，这个URL中包含了Token。
复制这个 Webhook URL，注意妥善保存，后续配置中会用到。

配置完成后，记得将获取到的 Token 添加到 AWS Lambda 的环境变量 WX_TOKEN 中。

方案具体实施步骤

在获取了企业微信机器人的 Webhook Token 后，就可以开始设置我们的监控和报警系统了。该系统分为以下几个步骤：

设立 CloudWatch 报警规则

首先，我们需要在 CloudWatch 中为 RDS 创建告警规则。具体步骤（以 Metric: CPUUtilization 为例）如下:

登录 AWS 管理控制台，进入 CloudWatch 服务。
在左侧菜单中选择 “告警” > “所有告警”，然后点击 “创建告警”。
选择要监控的 RDS 指标，例如 “CPUUtilization”(CPU 使用率)。
设置告警阈值和条件，例如当 CPU 使用率超过 80% 时触发告警。
选择 “通过 SNS 主题发送通知”，然后选择之前创建的 SNS 主题。
设置告警名称和描述，然后点击 “创建告警”。

接下来，按照 AWS 官方关于监控的最佳实践的说法，我们还需要继续监控如下几个 Metrics: DatabaseConnections, EBSByteBalance%, EBSIOBalance%, FreeableMemory, FreeLocalStorage, FreeStorageSpace, MaximumUsedTransactionIDs, ReadLatency, ReplicaLag, WriteLatency, DBLoad, AuroraVolumeBytesLeftTotal, AuroraBinlogReplicaLag, BlockedTransactions, BufferCacheHitRatio, EngineUptime, RollbackSegmentHistoryListLength 和 StorageNetworkThroughput，注意：这些 Metrics 不一定都同时都有的，没有的自然就跳过就好了。

接下来，我们需要创建一个 SNS 主题，用于接收 CloudWatch 的告警消息。具体步骤如下:

进入 SNS 服务，点击 “创建主题”。
输入主题名称和显示名称，然后点击 “创建主题”。
记下主题的 ARN(Amazon Resource Name)，后面会用到。

编写 Lambda function

现在，我们来编写一个 Lambda 函数，用于解析 SNS 消息并发送到企业微信。以下是 Python 代码示例:

import json
import os
from http.client import HTTPSConnection

def lambda_handler(event, context):
    qywx_robot_url = "https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key="
    token = os.environ['WX_TOKEN']
    send_url = qywx_robot_url + token
    headers = {
        'Content-Type': 'application/json'
    }

    context = ""
    try:
        message = json.loads(event['Records'][0]['Sns']['Message'])
        print(message)

        # 提取报警细节
        AlarmName = message['AlarmName']
        AlarmDescription = message['AlarmDescription']
        AWSAccountId = message['AWSAccountId']
        NewStateValue = message['NewStateValue']
        NewStateReason = message['NewStateReason']
        StateChangeTime = message['StateChangeTime']
        Region = message['Region']

        # 提取触发报警的指标信息
        Trigger = message['Trigger']
        Namespace = Trigger['Namespace']
        MetricName = Trigger['MetricName']

        # 构建报警详情
        detail = f"Alarm Details:\n" \
                 f"- Alarm Name: {AlarmName}\n" \
                 f"- Alarm Description: {AlarmDescription}\n" \
                 f"- AWS Account ID: {AWSAccountId}\n" \
                 f"- Region: {Region}\n" \
                 f"- Namespace: {Namespace}\n" \
                 f"- Metric Name: {MetricName}\n" \
                 f"- New State: {NewStateValue}\n" \
                 f"- State Change Time: {StateChangeTime}\n" \
                 f"- Reason for State Change: {NewStateReason}"

        title = '[AWS CloudWatch Alarm]'

        content = f"{title}\n\n{detail}"

    except Exception as e:
        print('CloudWatch 事件告警解析异常,请检查 Lambda 代码')
        print(str(e))
        content = "CloudWatch 事件告警解析异常,请检查 Lambda 代码\n" + str(e)

    msg = {
        "msgtype": 'markdown',
        "markdown": {'content': content}
    }

    conn = HTTPSConnection("qyapi.weixin.qq.com")
    conn.request("POST", "/cgi-bin/webhook/send?key=" + token, body=json.dumps(msg), headers=headers)
    response = conn.getresponse()
    print('已发送消息到企业微信')
    return response.read().decode()

代码解释

在代码中，我们首先解析 SNS 消息，提取报警的各种细节，如报警名称、描述、账号 ID、区域、指标名称等。然后构建一个 Markdown 格式的消息内容，并通过企业微信的 Webhook 接口发送出去。

注意，你需要将代码中的 WX_TOKEN 替换为你自己的企业微信机器人 Token。

Lambda 函数的核心逻辑就是解析 SNS 消息，提取关键信息，然后构建企业微信消息并发送。通过使用 Markdown 格式，我们可以让消息内容更加美观和易读。

还有，为什么这里用 http.client 而不是更常用的 requests，那是因为前者是 Python 3.x 自带的模块而后者不是，所以用后者的话还需要单独再安装，这在 lambda 里就不能用直接在 web console 直接写代码这种方便明了的方式了，而是还需要在本地找个环境，把需要的包（requests）安装好，打成包，再上传上去。相对这要麻烦太多了。

最后一步，我们需要将 SNS topic 与 Lambda function 关联起来。这样，当 CloudWatch 触发告警时，就会自动通过 SNS 的 topic 内容驱动调用 Lambda fuction，进而发送消息到企业微信。

进入 Lambda function 的详情页面，点击 “添加触发器”。
选择 “SNS”，然后选择之前创建的 SNS topic。
点击 “添加”，完成关联。
至此，我们就完成了使用 CloudWatch 监控 RDS 并通过企业微信报警的整个方案。当 RDS 出现异常时，你就可以第一时间收到企业微信通知，及时处理问题了。

结语

通过本文，我们学习了如何使用 AWS CloudWatch 监控 RDS，并通过 SNS、Lambda 和企业微信实现报警功能。这个方案可以帮助我们及时发现和解决 RDS 的各种问题，提高系统的可用性和稳定性。

自动化部署的艺术：用 GitHub Action 部署 Python 编写的 Chalice 应用到 AWS Lambda

2023-08-12T11:43:38.000Z

缘起

大家好，我是老杨。在这篇文章中，我将带大家深入了解如何利用 GitHub Action 自动化部署 Chalice 应用到 AWS Lambda。这不仅是一个技术实践，也是对 CI/CD 流程优化的一次探索。

在现代软件开发中，快速迭代和持续部署是提高开发效率的关键。Chalice 是一个用于部署 Python 应用到 AWS Lambda 的框架，而 GitHub Action 提供了一个强大的自动化平台。结合这两者，我们可以创建一个无缝的部署流程。

Chalice 简介

Chalice 是一个 Python 框架，它使得在 AWS Lambda 和 API Gateway 上部署无服务器应用变得简单。它允许开发者使用熟悉的 Python 语法来定义 Lambda 函数和 RESTful API，同时提供了丰富的配置选项来满足不同的部署需求。

GitHub Action 工作流详解

让我们来看一下这个工作流的核心内容。以下是一个简化的工作流文件示例，它展示了如何配置和执行部署任务。

name: Deploy xxxxx-indexer manually using Chalice
run-name: Deploy xxxxx-indexer ${{ inputs.branch }}->${{ inputs.environment }} by @${{ github.actor }}

on:
  workflow_dispatch:
    inputs:
      branch:
        description: 'Branch to deploy'
        required: true
        default: 'v1.1'
      environment:
        description: 'Deployment environment'
        required: true
        default: 'dev'
        type: choice
        options:
          - prod
          - dev

env:
  env_vars: '{"prod": "1111", "dev": "2222"}'
  project_directory: 'xxxx-indexer'

jobs:
  deploy-job:
    runs-on: ubuntu-latest

    steps:
      - name: Checkout code
        uses: actions/checkout@v4
        with:
          token: ${{ secrets.TOKEN_CICD }}
          ref: ${{ github.event.inputs.branch }}
          sparse-checkout: ${{ env.project_directory }}
          sparse-checkout-cone-mode: false

      - name: Delete configuration files for chalice
        run: |
          [[ -e ${{ env.project_directory }}/.chalice ]] && \
            rm -rf ${{ env.project_directory }}/.chalice

      - name: Checkout configuration files for CI/CD
        uses: actions/checkout@v4
        with:
          repository: xxxx-xxxx/CICD
          token: ${{ secrets.TOKEN_CICD }}
          ref: main
          sparse-checkout: chalice/${{ env.project_directory }}
          sparse-checkout-cone-mode: false
          path: config-chalice

      - name: Make a symbolic(soft) link
        run: |
          ln -srv \
             config-chalice/chalice/${{ env.project_directory }}/.chalice \
             ${{ env.project_directory }}/
          echo "after checkout CI/CD:"
          ls -lRa ${{ env.project_directory }}

      - name: Set up Python
        uses: actions/setup-python@v5
        with:
          python-version: '3.9'

      - uses: actions/cache@v4
        with:
          path: ~/.cache/pip
          key: ${{ runner.os }}-pip-${{ hashFiles('**/requirements.txt') }}
          restore-keys: |
            ${{ runner.os }}-pip-

      - name: Install dependencies
        run: |
          cd ${{ env.project_directory }}
          pip install -r requirements.txt
          pip install chalice

      - name: Prepare the .chalice/config.json
        run: |
          cd ${{ env.project_directory }}
          sed -e "s:___GH-REF___:${{ github.event.inputs.branch }}:g" \
              -e "s/___GH-COMMIT-ID___/$(git log -1 --format='%H')/g" \
              -e "s/___DBPASSWORD___/${{ secrets[format('DB_PWD_{0}', fromJson(env.env_vars)[github.event.inputs.environment])] }}/g" \
              -e "s:___GH-REPOSITORY___:${{ github.repository }}:g" \
              -e "s:___GH-DIRECTORY___:${{ env.project_directory }}:g" \
              -i .chalice/config.json
          echo "the content of file .chalice/config.json:"
          cat .chalice/config.json

      - name: Configure AWS Credentials
        uses: aws-actions/configure-aws-credentials@v4
        with:
          aws-region: ${{ vars[format('AWS_REGION_{0}', fromJson(env.env_vars)[github.event.inputs.environment])] }}
          aws-access-key-id: ${{ secrets[format('AWS_ACCESS_KEY_ID_{0}', fromJson(env.env_vars)[github.event.inputs.environment])] }}
          aws-secret-access-key: ${{ secrets[format('AWS_SECRET_ACCESS_KEY_{0}', fromJson(env.env_vars)[github.event.inputs.environment])] }}

      - name: Deploy Chalice
        id: deploy-step
        run: |
          cd ${{ env.project_directory }}
          chalice deploy --stage ${{ github.event.inputs.environment }}

      - name: Check for files changed
        id: git_status
        run: |
          cd config-chalice/chalice/${{ env.project_directory }}/.chalice
          git status -s
          file_changed=$(if git status -s | grep -q "deployed/${{ github.event.inputs.environment }}.json"; then echo 'true'; else echo 'false'; fi)
          echo "changed=${file_changed}" >> $GITHUB_OUTPUT

      - name: Commit and push changes
        if: ${{ steps.git_status.outputs.changed == 'true' }}
        run: |
          cd config-chalice/chalice/${{ env.project_directory }}/.chalice
          git config --local user.email "contact@xxx.xxx"
          git config --local user.name "contact-xxx"
          git config --local pull.rebase false
          git add deployed/${{ github.event.inputs.environment }}.json
          git commit -m "Update deployed files at $(date)"
          git pull
          git push

在这个工作流中，我们定义了两个输入参数：branch 和 environment。这允许我们在启动工作流时指定要部署的分支和环境。我们还设置了环境变量，这些变量在部署过程中会被用来配置应用。

接下来，工作流会检出指定分支的代码，删除现有的 Chalice 配置文件，并从 CI/CD 仓库中检出新的配置。然后，我们设置 Python 环境，安装依赖，准备配置文件，并配置 AWS 凭证。最后，我们执行 Chalice 部署命令，将应用部署到 AWS Lambda。

GitHub Action 缓存功能

在我们的工作流中，actions/cache 用于缓存 Python 的 pip 依赖。这可以显著提高后续部署的效率，因为依赖项不需要每次都重新下载。缓存的键是基于操作系统和依赖文件的哈希值，这确保了缓存的一致性和可恢复性。

CI/CD 仓库中的 JSON 文件推送

在部署完成后，Chalice 生成的 JSON 文件包含了部署的详细信息。将这个文件推送回 CI/CD 仓库有助于我们跟踪部署历史，管理配置，并在必要时进行回滚。这是一种确保部署过程透明和可审计的重要实践。

结语

通过这个详细的 GitHub Action 工作流，我们实现了 Chalice 应用的自动化部署。这个过程不仅简化了部署步骤，还提高了部署的可靠性。我希望这篇文章能够帮助你更好地理解如何利用 GitHub Action 来优化你的 CI/CD 流程。

如果你有任何问题，或者想要了解更多关于这个话题的信息，欢迎留言讨论。别忘了点赞和分享哦！

用 GitHub CLI 来查看 GitHub Action 执行情况

2023-07-09T11:45:27.000Z

缘起

最近相当长一段时间，都在调 GitHub action 的 workflow 比较多，而 GitHub 官网时不时抽风，于是就有了在命令行看 GitHub action jobs 的执行情况的需求。

环境准备

GitHub CLI 安装

brew

1	brew install gh

二进制文件

下载链接：https://github.com/cli/cli/releases/download/v2.40.0/gh_2.40.0_macOS_amd64.zip

GitHub CLI 配置

1	gh auth login

然后按照提示一步一步走就行了。
但是我建议的还是下面这种：

1	gh auth login --with-token < mytoken.txt

这里的 mytoken.txt 里的内容来自于：GitHub 官网右上角依次点击个人头像->Settings，再点左边栏下方 “Developer Settings”，然后再在左边栏点击 “Personal access tokens” 下的 “Tokens(classic)”，在这个页面里创建一个 “PAT(personal access token)”，这个放在 mytoken.txt 文件里就好了。

GitHub CLI 的使用

能用的场景很多，我只讲下我用的场景

cd xxxxxxxxxxx
# "xxxxxxxxxxx" 是 clone 下来的 GitHub 上的某个 repository 的目录
gh run list
# 获取这个 repository 当前正在跑的 GitHub Action 的 workflow 列表
# 注意输出里有个 ID，数字的，记下来
gh run view 7142031754
# 这里的 "7142031754" 就是上一步看到的在跑的 workflow 中你感兴趣的 ID
# 注意：这里输出中会有这个 workflow 正在运行的 job id，记下来
gh run view --job=19450447397
# 这里的 "19450447397" 就是上一步记下来的那个 job 的 ID
# 等这个 job 执行完成以后，可以用下面这个命令来看完整的执行情况
gh run view --log --job=19450447397

利用 AWS Session Manager 访问 VPC 内网的资源

2023-06-07T11:25:17.000Z

缘起

因为数据库放 VPC 私网网段里了，然后研发有各种直连数据库的需求，其实也有 VPN 方案，但有的研发认为先拨 VPN 不太方便，而我正好认识到 ssm，觉得挺有意思，所以就有了这篇文章的出炉。

其实实际上，都有了 EC2 了，直接上面建账号，几乎所有的 MySQL 的 GUI 客户端，都支持 ssh tunnel 来连数据库，这样就不需要手工命令自己打洞了，MySQL 的 GUI 客户端就一起给你搞定了，这部分还会再水一篇文章。可是，真的值得吗？后话再说。但 ssm plugin 方案比 ssh tunnel 方案更牛逼的一点是：ssm plugin 方案里，EC2 不需要有公网地址！

本地安装 aws-cli 和 Session Manager plugin

# 我的本地环境是 Macbook Air (m1)，
# 其他环境可能命令不一样
curl \
    "https://awscli.amazonaws.com/AWSCLIV2.pkg" \
    -o "AWSCLIV2.pkg"
sudo installer \
    -pkg AWSCLIV2.pkg \
    -target /
# 以上命令是安装 aws-cli。
# 然后当然还需要配置 aws --configure
# 或 aws --profile xxx --configure
curl \
    "https://s3.amazonaws.com/session-manager-downloads/plugin/latest/mac_arm64/session-manager-plugin.pkg" \
    -o "session-manager-plugin.pkg"
sudo installer \
    -pkg session-manager-plugin.pkg \
    -target /
sudo ln \
    -s /usr/local/sessionmanagerplugin/bin/session-manager-plugin \
    /usr/local/bin/session-manager-plugin

如果是Windows环境，可从以下网址下载session-manager-plugin并安装

https://s3.amazonaws.com/session-manager-downloads/plugin/latest/windows/SessionManagerPluginSetup.exe

具体使用

场景一：登录服务器

aws \
    --profile VFans-test \
    ssm start-session \
    --target i-0xxxxxxxxxxxxxx7

最后成功后显示：

Note: 这种“登录” EC2 服务器跟 ssh 登录 EC2 服务器相比，缺点就是不能上传下载数据。

场景二：打洞到 RDS

aws \
    --profile VFans-test \
    ssm start-session \
    --target i-0xxxxxxxxxxxxxxx7 \
    --document-name AWS-StartPortForwardingSessionToRemoteHost \
    --parameters host="192.168.xxx.xxx",portNumber="3306",localPortNumber="5555"

成功后显示：

这时候，再开一个控制台，测试如下：

发现本地的 5555 端口是开着的，如果用 MySQL 客户端来连的话，会发现连上的正好是 MySQL。

Amazon Linux 2023：Bug 还是特性？

2023-05-18T10:32:25.000Z

背景

在 AWS 的一个 VPC 内部的一台 EC2 上搭了一个 OpenVPN 服务器，对，就是从 Client VPN endpoint 迁移到 EC2 上的 OpenVPN 提到的这件事。然后我有台 PC 通过 OpenVPN 客户端软件连了过来。以下是基本信息。

NOTE: IP 地址都不是实际真实情况

EC2（A）
- 公网 IP：1.1.1.1（本地并没有，这个是防火墙或其他设备给做的一对一 map）
- 私网 IP：10.0.0.2/24
- 私网网关：10.0.0.1
- 私网网卡：enX0
- tun 设备名：tun0
- tun 设备 IP：172.16.0.1/24
PC（B）
- tun 设备名：tun0
- tun 设备 IP：172.16.0.2/24

问题描述

问题的核心是：B 无法 ping 通 A 的私网 IP。换句话说，当我在 B 上执行 ping 10.0.0.2 命令时，无法得到响应。俗话就是 ping 不通 10.0.0.2。

问题排查

初步排查

我对 AWS EC2 的网络问题进行了深入的排查，包括各种路由表、安全组、网络 ACL，甚至本地的防火墙配置等等。然而，我并没有找到问题的所在。我可以访问 VPC 内部的私网里的 RDS 资源，也可以在 A 上明显看到有接收到数据包。

ICMP 包的追踪

我继续深入，发现在 A 上可以接收到 B 发送的 icmp 包，而且 A 也确实有回包，但是奇怪的是，回包并没有通过 tun0 设备，而是直接从 enX0 设备发送出去！

不是路由的问题（？）

马上怀疑本地路由有问题，直接在 A 上执行

1	ip r get 172.16.0.2

发现没问题呀，是从设备 tun0 走的呀？这下就完全把我给整不会了。再此之后，我还做了好些努力，比如：

继续检测排查

在 A 上 ping B 的 VPN 地址（tun0 设备上）：
- ping 172.16.0.2，当然是通的
- ping -I 10.0.0.2 172.16.0.2，这种指定源 IP 的方式 ping，当然是不通的，同样问题，听包发现包没往 tun0 设备上走，而是往 enX0 上走了
跟各种 AI 掰扯，也被告知过 n 多需要检查的地方，比如 kernel 参数 rp_filter 啥的，都对，但都没啥意义，都查过 n 多遍了。
还在微信朋友圈里发了这个问题，看看朋友圈的卧龙凤雏有没有啥好一点的建议方法。回复基本上都有道理，但没有一个能给我灵感的。

问题原因

多番努力，虽然没有结果，但是慢慢还是明白了问题所在就是为什么从 10.0.0.2 出去按路由表应该往 tun0 上走的包却走到了 enX0 上？“这还是路由的问题“，我盖棺定论。

老想想不出为什么，于是就上网找了找 Linux 高级路由的资料看了看，突然想起来：Linux 系统里，路由选择上比路由表级别更高的还有一个：路由策略！柳暗花明呀。

我立马起来，登录上 EC2，

ip rule s

果然有一条记录：

10000: from 10.0.0.2 lookup 10000 proto static

果然有货，再接着看这条 id 是 10000 的路由表里有什么：

1	ip r s table 10000

系统显示：

default via 10.0.0.1 dev enX0 proto dhcp metric 512
10.0.0.0/24 dev enX0 proto static scope link

这一下子逻辑就清晰了，源地址是 10.0.0.2、目标地址是 172.16.0.2 的数据包之所以会往 enX0 上走是因为路由策略 10000: from 10.0.0.2 lookup 10000 proto static，这个策略规定了源地址是 10.0.0.2 的数据包怎么走要看路由表 10000，而在 10000 这张路由表又是这样的：

default via 10.0.0.1 dev enX0 proto dhcp metric 512
10.0.0.0/24 dev enX0 proto static scope link

按照这个路由表，去往 172.16.0.2 的数据包不妥妥的要往 enX0 上发吗？

问题验证

最后，我还要做最后一个测试，以验证我的结论：

sudo ip r add 172.16.0.0/24 \
    dev tun0 \
    src 172.16.0.1 \
    table 10000

然后，那边在 B 上 ping 10.0.0.2 马上就通了。

最后的最后，我把刚加的这条路由删掉了，因为我还没想好要不要修以及怎么修这个问题。

1	sudo ip r del 172.16.0.0/24 table 10000

结论

由于 Amazon Linux 2023 中在策略路由里将从 EC2 私网地址为源地址的数据包强制走了另外一张路由表，在那张表里源地址为 EC2 私网地址的数据包会走 enX0，而我的 OpenVPN 服务启动时只修改了缺省的路由表：main，故而导致从 OpenVPN 的客户端不能通 EC2 的私网地址。

所以，这到底是 Amazon Linux 2023 的 bug 呢，还是 OpenVPN 的 bug 呢？这个问题还需要进一步的探讨和研究。

通过 API 抓取 linear.app 的任务生成周报

2023-04-29T11:21:34.000Z

背景

某个项目用了 linear.app 来做任务分配和跟踪，为了写周报，想利用 API 来自动获取任务信息。

准备工作

获取 API 密钥

在 linear.app 里，点击自己的头像->Settings，点击左边导航栏的 API，在右边页面的 Personal API keys 下面 Create key 一下，然后记住。

安装 SDK

linear.app 的官方的 SDK 是 TypeScript 写的，但实际上 JavaScript 也是兼容的吧。官方给的安装 SDK 的命令就是下面这个：

1 2	npm install @linear/sdk # 安装 SDK

GraphQL 介绍

linear.app 的公开的 API 都是用 GraphQL 搭建的，官方也建议用 GraphQL 来获取数据

实现代码

前方高能预警：调包侠再次上线！

核心实现代码：

import { LinearClient } from '@linear/sdk'

// 用你的linear.app API密钥替换这里的YOUR_API_KEY
const apiKey = 'lin_api_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx';
const linearClient = new LinearClient({ apiKey });
const graphQLClient = linearClient.client;

// 定义一个GraphQL查询来获取上一周完成的工作列表
const queryLastWeekWork = `
  query GetLastWeekWork($startDate: DateTime, $endDate: DateTime) {
    viewer {
        assignedIssues(filter: {
            state: { type: { eq: "completed" } }
            completedAt: {
                gte: $startDate
                lte: $endDate
            }
        }) {
            nodes {
                id
                title
                completedAt
                url
                creator { id }
                assignee { id }
            }
        }
    }
  }
`;

// 定义一个函数来获取上周的日期范围
function getLastWeekDates() {
  const today = new Date();
  const lastWeekStart = new Date(today);
  lastWeekStart.setDate(today.getDate() - 7);
  const lastWeekEnd = new Date(today);
  lastWeekEnd.setDate(today.getDate());
  return { startDate: lastWeekStart.toISOString(), endDate: lastWeekEnd.toISOString() };
}

// 执行查询并生成工作周报
async function generateWeeklyReport() {
  try {
    const { startDate, endDate } = getLastWeekDates(); // 调用函数获取上周日期范围
    const response = await graphQLClient.rawRequest(queryLastWeekWork);
    const tasks = response.data.viewer.assignedIssues.nodes;
    console.log('工作周报：\n');
    tasks.forEach((task) => {
      console.log(`- [${task.title}](${task.url}) 完成于 ${task.completedAt}`);
    });
  } catch (error) {
    console.error('生成工作周报时出错：', error);
  } finally {
  }
}

把以上代码存为文件：linear.js，再用 Node.Js 来跑一下：

1	node linear.js

周报出炉！

利用 AWS System Manager 来连 VPC 内网的资源

2023-03-09T13:23:34.000Z

环境

配置好的 EC2

VPC 内需要有一台 EC2（有无公网 IP 好像没关系），并做好相关配置

安装 SSM Agent

Amazon Linux（无论是 1，还是 2，或者是 2023）一般是预装好的，只需要确认是否正常启动：

sudo systemctl status amazon-ssm-agent
# 如果没有启动的话，设置为自启动，并启动
sudo systemctl enable amazon-ssm-agent
sudo systemctl start amazon-ssm-agent

如果系统没有安装过 SSM Agent，那么安装（以 CentOS 8 为例）：

1 2	sudo dnf install -y \ https://s3.amazonaws.com/ec2-downloads-windows/SSMAgent/latest/linux_amd64/amazon-ssm-agent.rpm

激活“默认主机管理配置”

访问 https://console.aws.amazon.com/systems-manager/，打开 AWS Systems Manager 控制台。
在导航窗格中，选择 Fleet Manager。或者如果首先打开 AWS Systems Manager 主页，选择菜单图标 ( ) 以打开导航窗格，然后在导航窗格中选择 Fleet Manager。
在账户管理下拉列表中选择默认主机管理配置。
打开启用默认主机管理配置。
选择用于为您的实例启用 Systems Manager 功能的 AWS Identity and Access Management（IAM）角色。我们建议使用“默认主机管理配置”提供的默认角色。它包含使用 Systems Manager 管理您的 Amazon EC2 实例所需的最低权限集合。如果您更喜欢使用自定义角色，则该角色的信任策略必须允许 Systems Manager 作为可信实体。
选择配置以完成设置。

注意：

在打开“默认主机管理配置”后，您的实例可能需要最长 30 分钟才能使用所选角色的凭证。您必须在要自动管理 Amazon EC2 实例的每个区域中打开“默认主机管理配置”。

如不做其他调整，最多 30 分钟以后，你会在 System Manager -> Fleet Manager -> Managed nodes 下看到你的 EC2 了

本地 aws-cli 和 Session Manager plugin

# 我的本地环境是 Macbook Air (m1)，
# 其他环境可能命令不一样
curl \
    "https://awscli.amazonaws.com/AWSCLIV2.pkg" \
    -o "AWSCLIV2.pkg"
sudo installer \
    -pkg AWSCLIV2.pkg \
    -target /
# 以上命令是安装 aws-cli。
# 然后当然还需要配置 aws --configure
# 或 aws --profile xxx --configure
curl \
    "https://s3.amazonaws.com/session-manager-downloads/plugin/latest/mac_arm64/session-manager-plugin.pkg" \
    -o "session-manager-plugin.pkg"
sudo installer \
    -pkg session-manager-plugin.pkg \
    -target /
sudo ln \
    -s /usr/local/sessionmanagerplugin/bin/session-manager-plugin \
    /usr/local/bin/session-manager-plugin

具体使用

场景一：登录服务器

aws --profile test \
    ssm start-session \
    --target i-xxxxxxxxxxxxxxxxxx
# "i-xxxxxxxxxxxxxxxxxx" 是这台 EC2 的 ID

场景二：打洞到 RDS

aws --profile test \
    ssm start-session \
    --target i-xxxxxxxxxxxxxxxxxx \
    --document-name AWS-StartPortForwardingSessionToRemoteHost \
    --parameters 、
    host="10.0.0.1",portNumber="3306",localPortNumber="5555"
# 这里的 “10.0.0.1” 是你要连的 MySQL 的 IP 地址，是假设的，得根据实际情况修改

然后就可以愉快的在本地连数据库了：

1	mysql -h 127.0.0.1 -P 5555 -U admin -p

从 Client VPN endpoint 迁移到 EC2 上的 OpenVPN

2023-02-22T12:16:25.000Z

缘起

原本有一个 Client VPN endpoint 在 AWS 新加坡。有几个原因导致要迁移：

没几天就不能用了，具体原因不足为外人道也，懂的都懂。
Client VPN endpoint 太贵了。

现有环境

免费的 EC2 一台，跑的是 Amazon Linux 2023

具体步骤

安装 OpenVPN

由于 Amazon Linux 2023 里没有 OpenVPN 的包，也考察过 Fedora 36 的包，但思来想去，还是源代码编译安装吧，所以 OpenVPN 最后还是源代码编译安装的。

wget https://swupdate.openvpn.org/community/releases/openvpn-2.6.6.tar.gz
tar xzvf openvpn-2.6.6.tar.gz
cd openvpn-2.6.6
./configure --prefix=/usr/local/openvpn
make
# configure 和 make 的时候会出一些错误
# 多半是缺少什么包导致的，见招拆招吧，
# 缺什么直接用 sudo dnf install xxx 装上即可
sudo make install
sudo mkdir /usr/local/openvpn/etc
sudo cp ca.crt /usr/local/openvpn/etc/
sudo cp server.crt /usr/local/openvpn/etc/
sudo cp server.key /usr/local/openvpn/etc/
# 因为是迁移，所以这里把原来有的 ca.crt、server.crt 和 
# server.key 拷贝到 /usr/local/openvpn/etc/ 目录下
cd /usr/local/openvpn/etc
sudo wget https://github.com/OpenVPN/openvpn/raw/master/sample/sample-config-files/server.conf
# 上面是从 OpenVPN 官方代码库里把服务器配置例子扒下来

配置 OpenVPN 服务器

还是在 EC2 上，/usr/local/openvpn/etc 目录下

1 2	sudo vim /usr/local/openvpn/etc/server.conf # 以官方例子为模版修改服务器配置文件

有几个地方需要改：

cipher 这一行改成 cipher AES-256-GCM
dh 这一行改成 dh none
user 这一行改成 user nobody
group 这一行改成 group nobody
port 这一行是端口号，自己看着改，缺省 1194 也可以
proto 这一行建议改成 proto tcp
explicit-exit-notify 这一行如果 proto 设成 tcp 的话要改成 explicit-exit-notify 0
cert 这一行改成 cert /usr/local/openvpn/etc/server.crt
key 这一行改成 key /usr/local/openvpn/etc/server.key
ca 这一行改成 ca /usr/local/openvpn/etc/ca.crt
push “route 这一行需要按需写上要推送的路由（每行写一段），比如 push "route 172.16.0.0 255.240.0.0"

Linux 上打开包转发

EC2 上

1 2	echo "net.ipv4.ip_forward = 1" > /etc/sysctl.d/10-OpenVPN.conf sudo sysctl -p /etc/sysctl.d/10-OpenVPN.conf

启动服务

EC2 上

1
2
3

sudo /usr/local/openvpn/sbin/openvpn \
    --config /usr/local/openvpn/etc/server.conf \
    --daemon

AWS 上修改 EC2 的设置

所有做包转发的 EC2，都需要强制关掉 AWS 官方的 source/destination check。方法是：

Actions->Networking->change source/destination check，然后点“stop”

至此，VPN 从 AWS 的 Client VPN endpoint 已经迁移到我们自己的 EC2 上了，以前的客户端，只需要改下 remote 那一行的服务器地址为 EC2 的公网地址，以及将 proto 改成 tcp（Client VPN endpoint 缺省是 udp，而且不能改）即可继续使用，连新的 VPN 服务器。

用 Scratch 3 制作小游戏：2048

2023-01-12T11:11:32.000Z

缘起

乐宝幼儿园的时候上过一段时间的 Scratch 的课，他对这个表现出了浓厚的兴趣，于是我就给他买了基本相关的书籍，他也爱不释手。由于领导注意到乐宝对电子产品的痴迷，怕他迷失，所以规定他周末才能玩儿半小时的 Scratch。我发现他在用 Scratch 做一点小程序（照着书吧），而且还乐此不疲。正好我也有时间，所以我想琢磨下怎么做个游戏，然后再教乐乐（编写）。

真的是这样吗？哈哈，真的起源原因真不是这样的，而是因为乐乐手头有一个我二十多年前买的 Handspring 的 Visor，就是这一款：Handspring Visor Deluxe PDA@ifixit，乐乐也很喜欢，但我网上找了找，几乎已经没有任何应用了，连中文支持：CJK，貌似都没法用了。于是我想能不能自己写点简单的小程序，port 上去。于是就有了写个小游戏：2048 的想法。

这才是最初的需求，至于改用 Scratch 来弄，那是后来的想法。

过程

后来一搜，Scratch 官网就有一大堆的 2048 游戏程序例程（当然是别人分享出来的），我看了好多，都觉得有点复杂。而且油管上也有人录视频专门讲怎样编写 2048 这个游戏。本来想哪天翻译下来，再录个视频（又给自己挖了个坑：）。然后在中文世界里翻一翻，发现 B 站也有详细讲解的中文的视频。具体链接在这里：B 站用 Scratch 编写 2048 游戏的教学视频然后我的这个 2048 程序也是完全按照这个视频做（抄）下来的。

所以，这里说起来过程，其实就是一个字：抄。：）

言归正传。这个视频里其实还是有一些小坑的。大家从头看到尾了就会知道。有些的，是前面挖，但是后面自己填了，但是有一些是没填的。我这里就提一下没填的。其实主要就是一个：变量 clone? 的问题。

这个变量我理解应该是标识角色是否是克隆体的。由于作者的疏忽，视频里作者点击“新建一个变量”，然后输入变量名“clond?”，保持缺省选项：“所有角色可见”的前提下点击“OK”，结果发现系统已有这个变量。这是个容易忽视的小细节。在我的系统里（Scratch 3.29）里，照作者的方式是能新建这个变量：clone? 的，就算系统已存在叫“clone?”的变量。

然后一直到最后，我都发现有一个小问题：就是我的程序跑起来，会在 4x4 方格的右下方，显示一个方框角色，怎么都弄不掉。仔细再看了看程序代码，发现这个方块是方块角色做完 16 次克隆自己的操作以后移动到的位置。但是按照程序里处理广播消息：show 的积木块的代码来讲，母体角色是应该不显示的呀。再仔细看看处理广播消息：show 的程序，发现这个逻辑有问题：

这段程序是在 clone? = 1 的前提下才执行的（这个思路貌似很清晰：只有克隆块才执行），但问题是启动时变量 clone? 被赋值为 0，但是在“当作为克隆体启动时执行”的代码块里，又将 clone? 设置成了 1。问题来了，clone? 是个全局变量，克隆体里将其设置为 1 了，那么母体角色也能读到，所以每次做 show 操作时，母体角色执行时也会是 clone? = 1 成立，所以母体角色也被显示了出来。:(

当然，也有其他办法来修复这个 bug，但我又翻了翻 Scratch 关于变量的资料，发现其实这里只要将 clone? 设置为本角色可见就行了。因为在母体角色里，clone? 是为 0 的（系统启动时设置的）。克隆以后，克隆体继承了这个私有变量（本角色可见的变量），然后又在“作为克隆体启动时”的代码块里将其（clone?）设置成了 1，但是母体角色里 clone? 还是 0！！！！！这样母体角色在执行处理 show 消息的代码块时，判断 clone? = 1 不成立，所以不会被显示。问题被解决。

最后

这里贴一张改好后我自己玩儿 2048 时的截图

然后，最最后，我把代码贴出来，有兴趣的可以用来教小朋友哟。哈哈

整个 2048 项目 Scratch 3 源代码

How to deal with a faked tf card

2022-12-09T14:23:35.000Z

缘起

上一任租户有个可能运营商送的监控，有个摄像头，反正没用了，我就拆下来看看，发现里面有个 TF 卡，标着 256G 容量。就是如下这货：

134G->268G

插到电脑里，发现只能看到 134G 的容量，DiskUtil 里也是，如下图：

MacOS 下，执行：

1	sudo diskutil eraseDisk xxx xxxx xxxx xxxx

大致意思就是使用 MacOS 下的命令 diskutil 及相关参数 eraseDisk 来做。

注意：diskutil 的图形模式不具有这些功能！

这回，终于能认出来 268G 的容量了，如下图所示：

268G->30G

于是，插上电脑（HP Chromebook 11a G6 EE，关于这台机器，可以看文章：[How to Install Xubuntu on a Chromebook](“/2022/11/How to Install Xubuntu on a Chromebook/“)）开始安装 Linux，结果发现老失败，说是 TF 卡那个分区失败。于是开始怀疑卡（标称容量）有问题，网上搜了些相关资料，然后在电脑上下载了个叫 f3 的程序，用其工具 f3probe 来测了一下，结果是：30G！测出来真实的容量只有 30G！

然后根据建议用 f3fix 命令修复了下，想把正确的容量大小写回去，结果发现……跟我想要的结果不一样。再次考虑到 f3 是一个八年前的项目了，我又找了台 windows 机器，装了一个 DiskGenius，想再确认一下容量。

30G->26G

这一回，DiskGenius 只认出 26G 的容量！！！最后我赶紧分区、格式化，然后插回到监控摄像头里，这种容量造假的 TF 卡，我可不敢用来跑系统。说不定速度也是造假的呢。

How to Install Xubuntu on a Chromebook

2022-11-02T11:18:29.000Z

缘起

鱼总毕业了，带回来一台 Chromebook(HP Chromebook 11A G6 EE)，说是毕业了，学校就把学生用的电脑送给学生了。

鱼总说这电脑配置挺渣的，但续航还行，ebay 上还能卖个二三十刀，让我看着办。

我还能怎么办？！凉拌呗。当下失业在家，没有收入，当然有垃圾必捡，且用且珍惜啦。

于是，折腾走起。鉴于国内使用 ChromeOS 的种种不便，决定还是装一套 Linux 跑着吧。本来，ChromeOS 就直接支持 Linux(打开开发者模式就会有个简单的 Linux 可用)，而且还能通过几种工具（如 Crouton 和 Crostini 或 chrx ）安装 Linux，但我觉得还是要装一个“干净”的 Linux 更好一些。

具体步骤

turn on Developer Mode

在 Chromebook 上打开开发者模式（Developer Mode），方法很简单。

关机
开机。同时按住 Esc key, refresh key（键盘最上一排，带箭头的大半个圆圈的那个键）和电源键
当显示 Chrome OS is missing or damaged 的图片时，同时按住 Ctrl+D
如果需要输入的话，直接回车
机器会重启进入 Chromebook 的初始化安装设置，完成设置后
当显示 OS verification is off 提示时按 Ctrl+D，系统会重启。搞定。

Create a Bootable USB Drive

创建一个 Linux distribution 的安装 U 盘。

下载一个 Linux 的 iso 文件（image）
用 dd 命令或其他烧 iso 文件到 U 盘的工具（如 Balena Etcher ）将 ISO 文件写到 U 盘里。

disable firmware write-protect

因为下一步刷写新的 firmware 需要关闭 write protection。所以这一步我们需要提前做。根据 Chromebook 的型号不一样，关闭 WP 的方法各异，具体请查阅：https://mrchromebox.tech/#devices，找到你的 Chromebook 的型号，看看其的 WP Method 是哪种情况，我的 HP Chromebook 11A G6 EE 是“battery”，意思是可以通过摘掉电池（battery）的方法来临时禁掉 firmware write-protect。

这里禁掉 WP 的方法很多，有的是拧下一颗螺钉……

于是我们先拆机，具体可以参考油管上的一个视频：HP Chromebook 11 G6 EE Battery Replacement@youtube，或者是拆机图：HP Chromebook 11 G6 EE Battery Replacement@ifixit，先把盖子拆了。

看到电池以后，把电池和主板连接的那个接头小心的拔出即可。

Install a UEFI BIOS

刷一个 UEFI 的 BIOS 的 firmware，这里用的是 mrchromebox 改过的 coreboot

开机（因为电池被断开，所以要接着电源）
按 Ctrl+Alt+t，输入 shell，回车
接着输入命令：cd; curl -LO mrchromebox.tech/firmware-util.sh && sudo bash firmware-util.sh
输入 2（也就是选“Install/Update UEFI (Full ROM) Firmware”）
按提示输入（有机会插入 U 盘备份原来机器上的 ChromeOS 系统）直到刷写结束

上面的过程有几个需要注意的地方：

curl 命令的参数 “-LO” 是大写的英文字母”L”和“O”（不是数字 0 哟）
curl 命令出 ssl 握手错误的时候，多加一个参数“k”（也就是用参数“-LOk”而不是”-LO”）

Install Linux to Chromebook by USB stick

这里终于要用到前面做的 USB 启动盘了。

插入前面做好的 Linux USB 启动盘
开机（保持电源接入）
敲击 esc 键进入 BIOS
选择 U 盘启动
然后就正常安装即可

利用 Termux 和 Termux-API 在 Android 手机上定时自动更新壁纸

2022-10-13T14:37:22.000Z

缘起

这个事情的需求，其实……就是闲得。

开个玩笑。我其实之前用 Tasker 这个 APP 做过类似的事情，见之前文章：分享一些自己DIY的task的profile，但是有一阵遇到了 android 手机的壁纸 bug，我的 pixel 给干挂了两回，其中有一回甚至给重制了才救回来，救回来之后就没起过自动更换壁纸的任务了。

这次是看到 V 站上有个大佬，展示自己极少的 APP 时，截图里展示了一个桌面，上面的壁纸上有格言，还有英文单词。于是我就自然而然的想要不要把毒鸡汤也写到壁纸上呢？：）

环境准备

Termux 和 Termux-API

我这里环境（Termux 和 Termux-API）是现成的，但如果没有需要安装的话，请记住，不要装 google play 上的 Termux 和 Termux-API，而是要装 F-Droid 这个市场上的 Termux 和 Termux-API！

注意：要给 Termux 足够的权限（也许 Termux-API 也需要）：

后台运行的权限（不要被节电模式给干掉）
要设置为随机启动

最后，还要打开 Termux，输入：

1 2	apt install termux-api; # pkg install termux-api; # 也可以用命令 pkg

ImageMagick 及其他软件

打开 Termux，继续输入：

1 2	apt install ImageMagick; apt install wget curl grep sed;

具体实现

抓取毒鸡汤

毒鸡汤也是我自己 fork 了某个大佬的代码，自己搭建的服务。本身没提供 API 服务，这里也没想再开发一个 API 接口，所以直接模拟 web 访问，然后把需要的数据抓出来即可。不过我们还需要手工折行。

定时抓取壁纸并处理（用 ImageMagick）

我自己有个壁纸服务：壁纸，会定时更新输出的壁纸，后台爬虫是用 go 实现的。

这里我就直接用了自己的这个壁纸服务，定时（每小时）去抓一个壁纸回来。接着做如下处理：

如果宽小于 1080 或者高小于 2400 的话，会首先被按原比例放大，直到宽达到 1080 或高达到 2400（具体看哪种放大的比率小）。
再接着在壁纸正中截取一个 1080x2400 的图片出来
最后在这个截取出来的 1080x2400 的图片的合适位置写上毒鸡汤服务中抓取出来的文本数据，把最终结果保存为文件

设置壁纸

最后自然是把上一步保留的文件用 termux-wallpaper 命令（来自于软件包 Termux-API）设置成新壁纸。

把整个工作自动化

把上面的流程写成代码（假设存为文件 $HOME/bin/change_wallpaper.sh），再用 termux-job-scheduler（来自于软件包 Termux-API）将这个代码设置为定时运行。我的例子里我是这样用的。打开 Termux，输入命令：

termux-job-scheduler \
    --persisted true \
    --period-ms 3600000 \
    -s $HOME/bin/change_wallpaper.sh;
# persisted 是指重启后保持有效
# period-ms 3600000 是指一小时跑一次

几个坑

中文字体

在图片上写中文（含全角标点）时需要用中文的字体，因为普通字体里没有中文字符呀！

所以，要在所有可用字体里选出有中文字符且全角标点位置不在中间的，其实还有个想法，就是想找一个酷一点的中文字体，我把所有可用字体做了个循环，测试写中文字符以及全角标点，结果保存到文件里，代码大概如下：

for i in $(\
    magick -list font | \
    grep "Font:" | \
    awk '{print $2}' \
)
do
    echo $i
    convert \
        -font $i \
        -pointsize 72 \
        label:测，。试test \
        x.jpg x-${i}.jpg
done

我先在我的 Mac 里跑的，找到一堆合适的字体以后，再去找 Termux 里 magick -list font | grep "Fonts:" | awk '{print $2}' 的结果来做对比，结果发现，匹配上的只有一种字体：Noto-Serif-CJK-SC。:(

当然，也可以再单独在 Termux 里安装新的好看的可用字体。但我没这么做，看以后需求吧。

crond vs termux-job-scheduler

其实最早这个方案我是打算用 crond 来做定时任务的，软件都安装设置好了。

打开 Termux，

1	apt install cronie termux-services;

关闭并重新打开 Termux

1	sv-enable crond;

但是发现用 crond 跑其他任务都没问题，但是跑 termux-API 里的命令总会报 Selinux 的错误！实在是搞不定啊，于是才转向 termux-job-scheduler 方案。

其实刚用 termux-job-scheduler 时日志里也出跟 crond 一样的信息，当时心就哇凉了，但没想到后来自己居然就好了？！：）

ImageMagick 的 -crop 跟 -gravity Center 一起用的问题

ImageMagick 软件包里的命令：convert 有个参数：*-crop*，功能是用来从图片上截取一部分，这个参数还需要提供 x、y 两个参数，这两个可以理解为横坐标（x）和纵坐标（y），这个时候学过一点点编程基础的小可爱们是不是自然而然都会以为 -crop 参数（其实是操作参数，可以理解为命令）截取的长方形图片是以这个横坐标 x、纵坐标y 为顶点的呢？

我一开始也是这么认为的，所以当我用 -gravity Center 将坐标零点设置为图片中心之后，我将参数 x 和 y 分别设置成了 -540 和 -1200，结果就悲催了，最后经过调试，才知道当有 -gravity Center 时，x 和 y 是指截取长方形的中心的坐标！！！！

所以，这里的 x 和 y 都应该是 0 才对！！

change_wallpaper.sh 代码

最后，show you the code:

#!/data/data/com.termux/files/usr/bin/bash

TMP_IMG="$(mktemp $HOME/tmp/tmpimg.XXXXXX)"
sublen=8   # 每行显示的字符个数
DJT_TXT="$(
        curl -s https://djt.theyan.gs | \
        grep -Po '(xxxxxxxxxx)' | \
        sed -r 's/.{'"$sublen"'}/&\n/g' \
)"

wget -q -O - https://wallpaper.theyan.gs/wp | \
    convert - \
        -resize '1080x2400^<' \
        - | \
    convert - -gravity Center \
        -crop 1080x2400+0+0 \
        +repage \
        - | \
    magick - -font Noto-Serif-CJK-SC \
        -pointsize 128 \
        -fill DarkViolet \
        -annotate +5+500 \
        "$DJT_TXT" \
        $TMP_IMG

termux-wallpaper -f $TMP_IMG

rm $TMP_IMG
# 抓毒鸡汤那一段 grep 的正则需要自己调整这个程序才能正常跑
# 不要来抓我的毒鸡汤的数据呀：（，这个项目程序、数据都是开源的，可以直接下载的，地址毒鸡汤上有。

最后，附壁纸截图一张：

Best Practices for VPC IP Address Allocation

2022-09-13T12:13:23.000Z

缘起

如今公有云用的越来越多，各个区域、不同可用区，还有各种特殊服务，再加上也许还有自建 IDC，还有办公网内网。我的传统是会将这些内网打通的。所以，各个节点网络的 IP 地址分配策略（方案）就成了一个绕不开的话题。

背景介绍

region: 公有云厂商每个 region（我喜欢叫做节点）里可以创建多个 VPC
zone: 每个 region 会有三个或更多的可用区（zone），每个可用区可以看作是一个数据中心（IDC）
subnet: subnet(子网) 会在某个可用区（zone）里创建。

VPC 分配策略

我常用的一些 VPC 创建管理策略：

生产(Product)、测试(testing)和 Stage 环境（如果有的话）一般会单独一个 VPC
infrastracture 的相关机器（比如 Gitlab、VPN server、日志处理和监控报警等）也会一个单独的 VPC（规模相对较小）

VPC 下 subnet 的策略

公有云厂商一般会建议每个 VPC 至少要跨两个可用区（为了冗余，避免某个可用区挂掉导致所有服务不可用），我一般会跨三个可用区。
公有云厂商会建议 VPC 下的子网（subnet）分成公网子网（配公网 IP）和私网子网（不配公网 IP）。

VPC 中的 IP 分配

私网地址

这里指的是在 RFC 1918 里定义的“私有地址空间（Private Address Space）”，各大公有云厂商允许分配给 VPC 的 IP 地址只能是这其中的。

10.0.0.0/8（从 10.0.0.0 到 10.255.255.255）
172.16.0.0/12（从 172.16.0.0 到 172.31.255.255）
192.168.0.0/16（从 192.168.0.0 到 192.168.255.255）

VPC 和 subnet 的 IP 分配要求

每个 VPC 要分一段（上面提到的）私网地址
VPC 下的每个 subnet 也要独占一段其 VPC 占有的私网地址中的一段

IP 分配策略

VPC

根据 VPC 的数量多少选用 10 段、172 段还是 192 段的 IP
每个 VPC 根据需求大小选一个或多个 C 段地址，当然更小也是可以的，比如半个 C 段（比如有些 infrastructure）。

subnet

以最简单的 VPC 配置四个 C 段地址为例（我常用是一个 VPC 两个 C 段），假设其是 10.0.0.0/22（也就是 10.0.0.0/24、10.0.1.0/24、10.0.2.0/24 和 10.0.3.0/24 四个 C 段），那么：

找三个可用区，

分别建立一个私网子网，分配 IP 地址段：
- 10.0.0.0/24
- 10.0.1.0/24
- 10.0.2.0/24
分别建立一个公网子网，分配 IP 地址段：
- 10.0.3.0/26
- 10.0.3.64/26
- 10.0.3.128/26

可以看出这个 VPC 还剩一段 IP：10.0.3.192/26，这一段就留作冗余。

注意：

VPC 的 internet gateway 要放到公网子网里
VPC 的 SNAT 设备要放到公网子网里
VPC 的公网子网的 default gateway 指向的是 internet gateway
VPC 的私网子网的 default gateway 指向的是 SNAT 设备

待续

本方案并没有考虑 IPv6 的情况，以后有机会更新的时候，会把 IPv6 的支持考虑进去。