数据库内核月报

数据库是企业数据的基石，而内核稳定性则是这块基石的地基。地基不稳，上层建筑再华丽也经不起风雨。本文将介绍阿里云 PolarDB PostgreSQL 版（下文简称 PolarDB-PG）研发团队如何从零构建一套研发自测系统，在日常开发过程中持续发现并修复内核缺陷，将产品故障率降低了一个数量级。

1. 为什么数据库需要”研发自测”？

1.1 测试是数据库的生命线

数据库不同于普通应用软件——它承载着用户最核心的数据资产。一个微小的内核 Bug，可能导致数据丢失、索引不一致、主备切换失败，甚至引发大规模线上故障。对于数据库而言，测试不是锦上添花，而是生死攸关。

然而，原有的测试流程面临几个现实挑战：

测试频率有限：版本发布前集中运行测试，测试批次有限，难以覆盖低概率触发的问题
环境资源受限：多个版本同时提测时容易排队，测试并发度不高
人工环节多：手动启动测试、手动查看结果、手动创建缺陷工单、手动指派——效率瓶颈明显
测试场景不够极端：标准测试负载与真实业务场景之间存在差距，更难覆盖极端并发下的边界情况

1.2 从思考中出发

随着 PolarDB-PG 支持的版本越来越多、功能越来越丰富，对稳定性的要求也越来越高。团队深刻认识到：仅靠发版前的集中测试远远不够，必须在日常开发过程中就持续发现问题。 于是，内核研发团队决定投入力量，构建一套研发人员自己日常使用的测试系统——作为原有测试流程的有力补充，在代码合入的第一时间就开始”体检”。

2. 设计理念：像做产品一样做测试

2.1 调研与借鉴

在动手之前，团队广泛调研了业界的测试实践：

压测 + 高可用测试：通过 sysbench/pgbench 等工具进行压力测试，同时模拟主备切换，验证业务运行期间的稳定性
混沌工程：各种硬件故障注入，验证系统在异常条件下的表现
Fuzz Testing：随机生成 SQL 语句，发现复杂查询的逻辑错误
自动化缺陷管理：自动分析测试结果，自动创建缺陷工单并指派给对应代码负责人

这些思路各有所长，但没有一个能完全满足 PolarDB-PG 内核团队的需求。团队决定取各家之长，结合自身特点，构建一套量身定制的测试体系。

2.2 三大设计原则

全员共建，而非单点依赖

由少数研发同学率先搭建起框架骨架，提供开发手册，其他研发同学根据自己开发的新功能，自行添加测试用例。功能的开发者最了解自己的代码应该如何测试，这种模式既降低了测试开发的门槛，又确保了测试用例的针对性。

聚焦内核，有所取舍

数据库的测试范围可以无限大，但资源总是有限的。团队做了清晰的取舍：

主要关注内核本身的问题，物理机、网络、代理层等尽可能不测
优先覆盖线上用户最容易出问题的场景——这些场景往往并不复杂，可能就是业务请求 + 主备切换
先做好基础用例，再逐步扩展高阶测试

极致自动化，解放生产力

研发人员天生喜欢用工具解决重复性工作。从调度、执行、错误检测、缺陷创建到指派通知，全链路自动化是这套系统的灵魂。

3. 系统架构：五大核心能力

整个研发自测系统围绕以下五大核心能力构建：

┌─────────────────────────────────────────────────────────┐
│                    自动化调度引擎                          │
│         7×24h 不间断运行，上万种配置自动轮转                 │
├──────────┬──────────┬──────────┬──────────┬──────────────┤
│ 多种工作  │ 云服务    │ 自动化    │ 数据化    │ 多架构       │
│ 负载并发  │ 模拟测试  │ 缺陷管理  │ 运营体系  │ 适配        │
│ 压测引擎  │ 引擎     │ 引擎     │          │              │
└──────────┴──────────┴──────────┴──────────┴──────────────┘
         │              │            │           │
    ┌────┴────┐    ┌────┴────┐  ┌───┴───┐  ┌───┴────┐
    │ 容器化   │    │ 资源池   │  │ 元数据 │  │ 监控   │
    │ 测试环境 │    │ 管理    │  │ 中心   │  │ 报表   │
    └─────────┘    └─────────┘  └───────┘  └────────┘

3.1 能力一：多种工作负载并发压测

传统测试通常是”一种负载跑一遍”，而真实的生产环境中，用户的业务远比这复杂。研发自测系统的核心思路是：让测试负载比真实业务复杂若干倍，如果数据库在极端高压下能稳定运行，那么在用户场景下只会更稳定。

系统同时运行多种类型的工作负载，它们相互并发、相互干扰，模拟最极端的场景：

SQL 压测：大量 SQL 用例（DML、DDL、PL/SQL、复杂查询等）通过 pgbench 高并发随机抽样执行
逻辑复制：模拟用户的数据订阅消费行为，与压测同时进行
客户端工具测试：psql、pg_repack、pg_dump/pg_restore 等工具的并发使用
回归测试：将 PostgreSQL 内核的回归用例移植到有并发背景压力的环境下运行
索引一致性校验：在有写入压力的情况下，比较索引扫描与顺序扫描的结果是否一致
主备一致性校验：验证主备节点之间的数据一致性

所有这些负载同时运行，而不是依次执行。这种”暴力美学”的测试方式，能够暴露出许多在单一负载下永远不会触发的并发问题。

测试用例的设计也有讲究：

SQL 用例只需写标准 SQL，不需要指定表的 schema，框架通过自动切换 search_path 来实现同一份 SQL 在不同表类型（普通表、分区表、临时表、全局临时表等）下的复用
通过 YAML 配置文件将单项测试集成为并发测试套件，格式通用，全团队都能轻松上手。YAML 配置还支持精准的运行条件控制：某个测试用例可以声明”仅在 PG 14 及以上版本运行”、”仅在 Oracle 兼容模式下运行”等约束，框架在运行时自动识别并跳过不满足条件的用例，确保每个用例都在正确的环境下执行
压测过程中产生的错误不会中断测试，错误由独立的监控线程检测和上报（详见第 6.3 节）

3.2 能力二：云服务模拟测试

数据库在云上运行，除了常规的增删改查，还会频繁经历各种运维操作：主备切换、节点扩缩容、规格变配、版本升级等。这些操作期间的内核稳定性至关重要。

系统模拟了多种云服务场景，包括：

主动主备切换（Switchover）：模拟用户手动发起的主备切换
被动故障切换（Failover）：模拟主节点故障后的自动切换
只读节点增减：模拟用户根据业务负载动态调整只读节点数量
跨可用区切换：模拟可用区故障时的 Standby 切换
崩溃恢复：模拟进程异常退出后的恢复流程
规格变配、小版本升级等

每种模拟都遵循统一的三阶段模式：

模拟前（Pre-check）        →  执行模拟（Simulate）  →  模拟后（Post-check）
├─ 实例状态检查              ├─ 执行具体操作          ├─ 事务状态校验
├─ 校验数据准备              ├─ 等待操作完成          ├─ 数据页正确性校验
└─ 位点延迟准备              └─ 验证预期结果          └─ 一致性校验

关键设计： 所有服务模拟都与 SQL 压测同时进行。这意味着在数据库承受高并发读写压力的同时，还要经历主备切换、节点增减等操作——这比真实生产环境更加极端。

3.3 能力三：自动化缺陷管理

发现问题只是第一步，高效地将问题传递给正确的人才是关键。系统实现了从错误检测到缺陷指派的全链路自动化：

错误检测：

每种测试负载的线程都有独立的错误判断逻辑
独立的监控线程持续检测内核日志中的异常信息和 coredump 文件
支持错误信息白名单，已确认为预期行为的错误不会重复告警

错误归一化与去重：

对错误信息进行正则替换，将动态部分（如表名、行号）归一化，避免同一问题创建多个工单
对于 coredump，提取调用栈中的函数名序列作为唯一标识
同一错误首次出现时创建工单，再次出现时追加评论，设置冷却时间防止评论过多

智能指派：

根据错误信息中的关键词（如函数名、错误类型）匹配对应模块的负责人
结合 git 提交记录，找出最近修改过相关代码路径的开发者，优先指派——新引入的代码最可能是 Bug 的根源
如果无法匹配，则指派给当月的版本发布负责人
工单中包含完整的错误现场信息：实例版本、测试配置、登录方式、错误日志等，方便快速定位

状态追踪：

如果工单被关闭但问题再次出现，自动重新打开
对于 coredump 类的严重问题，设置更严格的重新打开规则

3.4 能力四：数据化运营体系

用搭建应用程序的思路来搭建测试系统——元数据库是整个系统的神经中枢，一切皆入库：测试配置、运行记录、测试结果、缺陷信息、修复记录、资源使用情况、高可用操作历史……所有数据都有据可查，构建了完整的数据化运营体系：

Bug 画像：通过元数据查询某个 Bug 首次出现的时间、出现频率、触发配置、影响版本等，快速确定问题的影响范围和复现条件
灵活调度：上万种测试配置保存在数据库中，调度策略、运行频率、机器分配等都可以通过元数据一键变更，即刻生效
资源管控：每次实例的创建与销毁都在元数据库中记账，实时掌握资源水位，防止物理机过载
丰富报表：基于 Grafana 构建监控大盘，包括新增缺陷趋势、修复进度、测试运行记录、资源使用情况、主备切换成功率等；同时通过钉钉群机器人将关键告警和每日摘要实时推送给团队，确保问题第一时间被关注

3.5 能力五：多形态测试环境适配

PolarDB-PG 需要支持多种 CPU 架构和操作系统版本，同时在不同的测试环境中运行。系统通过面向对象的高度抽象设计，用统一的接口屏蔽了不同环境之间的差异，对每种新环境只需进行少量适配即可接入。

系统目前支持三种测试形态，各有侧重：

Docker 容器环境（主力环境）

最轻量的测试形态，也是日常大规模并发测试的主战场：

单个实例资源占用极少，可在有限的物理机上同时运行数十个测试实例
支持各种编译参数、Debug 模式、断言开关，能发现 Release 模式下永远不会暴露的问题
通过镜像 Tag 轻松覆盖 x86 / ARM、多种操作系统版本等不同架构
无需打包镜像，直接拉取代码编译运行，快速迭代
在容器内，实例的创建、主备切换、节点增减、规格变配、实例删除等操作全部通过脚本封装，一键调用即可——相当于在 Docker 环境中实现了一套轻量级的数据库管控系统，其调用体验与在阿里云官网调用 OpenAPI 如出一辙，完整覆盖内核侧的高可用逻辑

Kubernetes 云原生环境

比容器环境稍重，更接近真实的云上部署形态：

基于 K8s 编排管理测试实例，覆盖云原生部署场景下的内核行为
可验证容器化部署特有的资源调度、存储挂载等场景

线上真实环境

最重的测试形态，以真实用户视角验证产品质量：

通过阿里云 OpenAPI 直接调用线上管控接口，模拟真实用户的运维操作行为
覆盖完整的云管控任务流：购买实例、主备切换、规格变配、版本升级等
主要关注任务流成功率、各可用区和各规格的可用性等线上指标

统一抽象的关键设计：

测试框架（统一接口调用）
        │
        ├── Docker 环境  →  黑屏脚本执行 Shell 命令
        ├── K8s 环境     →  K8s 命令操作
        └── 线上环境     →  阿里云 OpenAPI 调用

同一套测试逻辑，只需切换底层实现，即可在三种环境中运行。这种设计使得测试能力的扩展和新环境的接入成本极低。

4. 自动化调度：7×24 小时不停机

4.1 上万种配置的排列组合

PolarDB-PG 的测试维度非常丰富：

维度	示例
数据库版本	PG 11 / 14 / 15 / 16 / 17 / 18
兼容模式	PostgreSQL 模式 / Oracle 模式
CPU 架构	x86 / ARM
操作系统	多种版本
工作负载	DML / DDL / 内置负载 / 专项负载
表类型	普通表 / 分区表 / 临时表 / 全局临时表等
SQL 协议	Simple / Prepared / Extended
事务模式	无事务 / 随机事务 / 两阶段事务
并行模式	默认并行 / 强制并行
编译参数	Debug / Release / 各种断言开关
GUC 配置	默认配置 / 各种特殊参数组合
…	…

这些维度自由组合，产生了 数万种测试配置。

4.2 智能调度策略

定时自动启动新的测试任务，均匀分散调度压力
每次选择最久未被调度的配置运行，确保所有配置都能被周期性覆盖，不会有长期被遗漏的死角
启动前检查目标机器的 CPU 和内存使用率，避免资源打满
支持资源隔离：不同功能的专项测试使用带有特定标签的专用机器

4.3 资源管理

为了在有限的物理机上最大化测试并发度，系统实现了一套微型的资源管理系统：

资源记账：每次创建/销毁测试实例都在元数据库中记录，实时掌握资源使用情况
编译优化：同一个代码版本只编译一次，后续复用编译产物，避免并发编译打满 CPU
过期清理：测试失败的实例保留数天用于问题排查，到期后自动清理释放资源
全量校正：定期扫描物理机上的实际资源使用情况，修正元数据中的偏差

5. 实战成果：数据说话

5.1 回馈 PostgreSQL 全球社区

研发自测系统在测试 PolarDB-PG 内核的过程中，也发现了一些 PostgreSQL 社区原生代码中的稳定性问题，并将这些问题反馈给了 PostgreSQL 全球社区，推动了社区的修复与进步。这是一个双赢的结果：PolarDB-PG 基于 PostgreSQL 内核深度定制，对内核的极限压测既保障了自身产品的稳定性，也为整个 PostgreSQL 生态做出了贡献。

5.2 缺陷发现能力

自系统上线以来，研发自测系统已成为发现内核稳定性缺陷的重要渠道：

测试频率相比原有测试流程提升了一个数量级以上，7×24 小时不间断运行，大幅提升了低概率问题的触发机会
稳定性问题发现占比长期稳定在 80% 以上：在各渠道共同发现的稳定性缺陷中，超过八成由研发自测系统率先捕获

5.3 故障率显著下降

从系统上线后的几个财年来看：

产品整体故障分逐年大幅降低，从历史高点下降了一个数量级
内核相关故障分持续走低
内存相关问题（如 OOM）从”频发且无法定位”变为”罕见且可定位”

5.4 线上运维质量提升

系统进行了大量的高可用测试，发现并修复了若干主备切换相关的问题，直接提升了线上运维质量：

主备切换任务时间显著缩短，从曾经需要数十分钟降低到分钟级以内
主备切换 RTO 大幅压缩，用户业务中断时间从分钟级降低到秒级

5.5 测试规模

大量 SQL 测试用例：覆盖 DML、DDL、PL/SQL、复杂查询、索引、事务等各类场景
丰富的云服务模拟场景：涵盖主备切换、节点增减、跨可用区切换、崩溃恢复等多种高可用操作
数万种测试配置组合：多个维度自由组合，覆盖各种版本、架构、参数配置

6. 与原有测试流程的协作：互补而非替代

研发自测系统不是要替代原有测试流程，而是形成互补：

维度	原有测试流程	研发自测系统
测试阶段	版本发布前	日常开发全程
测试频率	版本发布前集中测试	7×24h 不间断
测试环境	接近生产环境	轻量容器环境
侧重点	功能正确性、兼容性	稳定性、极端场景
编译模式	Release	Debug（更多断言检查）

两者在测试阶段、测试环境、测试侧重点上各有不同，形成了良好的互补关系，共同守护产品质量。

7. 经验与启示

7.1 对数据库团队的启示

测试是投资，不是成本。 前期投入构建自动化测试体系，后期会以指数级回报——更少的线上故障、更快的问题定位、更高的研发效率
研发人员做测试有独特优势。 内核研发更了解数据库原理，能设计出更有针对性的测试用例；Debug 模式下的断言检查能发现 Release 模式下永远不会暴露的问题
全员参与是关键。 降低测试用例的开发门槛（只需写 SQL 和 YAML），让每个功能的开发者都能为测试体系贡献力量。这与软件工程中”全栈工程师”的理念一脉相承——让开发者对自己的代码负全责，从设计、实现到测试，而不是将测试完全外包给其他团队。功能的开发者最了解边界条件在哪里、最容易出问题的路径是什么，由他们来写测试用例，往往比任何人都更有针对性
数据驱动决策。 将测试系统当作一个产品来运营，所有数据入库，用数据说话
拥抱 AI，让测试用例的生产成本趋近于零。 在 AI 编程助手普及的今天，研发人员在开发新功能时，可以顺手让 AI 根据功能逻辑生成对应的 SQL 测试用例——这几乎是零额外成本的。AI 还可以用于分析 coredump 堆栈、归类相似 Bug、从海量错误日志中提炼规律，大幅降低人工分析的负担。更进一步，当前研发自测系统的能力边界停在”发现 Bug”——发现之后的定位、修复、验证仍然依赖人工介入。而 AI Agent 的出现让一个更完整的闭环成为可能：发现 Bug → AI 自主分析日志与堆栈定位根因 → 生成修复方案 → 继续压测验证 → 若未修复则迭代，直到问题解决。这与 Agent 的工作流程高度吻合。在复杂并发压测场景下产生的疑难问题，往往涉及多线程交错、极端时序等人类难以直觉推断的情况，AI 的分析能力在这类场景下甚至可能超越人工。测试与 AI 深度融合的自治化测试体系，将是未来研发自测演进的重要方向

7.2 对所有软件团队的启示

基础不牢，地动山摇。 无论是数据库还是其他基础软件，稳定性测试都不能只依赖发版前的集中测试，必须融入日常开发流程
自动化是生产力的倍增器。 手动测试的天花板很低，只有全链路自动化才能实现质的飞跃
极端场景比常规场景更有价值。 让测试负载比真实业务复杂若干倍，才能在测试阶段暴露出生产环境中的潜在问题
测试系统本身也是一个产品。 需要良好的架构设计、可扩展性、用户体验，才能持续演进

8. 写在最后

PolarDB-PG 研发自测系统从最初的一个小型框架，逐步成长为覆盖数万种配置、7×24 小时不间断运行的自动化测试体系。它与专业测试团队的严格测试、阿里云对产品稳定性的一贯高标准要求，以及整个研发团队在代码质量上的持续投入，共同构成了 PolarDB-PG 稳定性保障的多道防线。

这个过程中，我们最深刻的体会是：对于数据库这样的基础软件，测试的重要性怎么强调都不为过。 每一个被测试发现的 Bug，都是一次潜在的线上故障被提前消灭。每一次主备切换的成功率提升，都意味着用户的业务少了一次中断的风险。

基础不牢，地动山摇。 而持续、自动化、极端场景下的测试，就是加固地基最有效的方式。

本文基于 PolarDB PostgreSQL 版研发团队的实践经验撰写。PolarDB 是阿里云自研的云原生关系型数据库，广泛应用于金融、政务、互联网等行业。

PolarDB PostgreSQL 版（兼容 PostgreSQL）：https://help.aliyun.com/zh/polardb/polardb-for-postgresql
PolarDB PostgreSQL 版（兼容 Oracle）：https://help.aliyun.com/zh/polardb/polardb-for-oracle

数据库内核月报－ 2026 / 04

PolarDB-PG 如何用研发自测系统守护数据库内核稳定性