数据库内核月报 - 2015 / 09

MySQL · 捉虫动态 · 建表过程中crash造成重建表失败

问题描述

主库的create table语句传到备库,备库SQL线程执行过程中报错:

Error 'Can't create table 'XXX.XX' (errno: -1)' on query. Default database: 'XXX'. Query: 'CREATE TABLE XX (  column_a char(32) NOT NULL,  column_b int(10) DEFAULT NULL,  column_c int(10) DEFAULT NULL,  PRIMARY KEY (column_a),  KEY expiry (column_b)) ENGINE=HEAP DEFAULT CHARSET=gbk'

备库 error log:

InnoDB: Error number 17 means 'File exists'.
InnoDB: Some operating system error numbers are described at
InnoDB: http://dev.mysql.com/doc/refman/5.5/en/operating-system-error-	codes.html
InnoDB: The file already exists though the corresponding table did not
InnoDB: exist in the InnoDB data dictionary. Have you moved InnoDB
InnoDB: .ibd files around without using the SQL commands
InnoDB: DISCARD TABLESPACE and IMPORT TABLESPACE, or did
InnoDB: mysqld crash in the middle of CREATE TABLE?You can
!!!InnoDB: resolve the problem by removing the file '...'
InnoDB: under the 'datadir' of MySQL.

从error log中可以看出,数据目录中已存在 .ibd 文件,推测是在建表过程中发生 crash。

数据目录下存在 .ibd,不存在 .frm,创建.ibd 文件的时间:

-rw-rw---- 1 mysql mysql    65536 Sep  5 14:41 XXX.ibd

.ibd 文件创建时间 150905 14:41,对应时间的 error log:

150905 14:41:58 mysqld_safe Number of processes running now: 0
150905 14:41:58 mysqld_safe mysqld restarted

之后也出现了和该创建失败的表相关的错误记录:

150905 14:59:45  InnoDB: Error: table `XXX`.`XX` does not exist in the InnoDB internal

问题分析

执行如下语句,模拟建表

create table test.t3 (id int);

create table 时,由函数mysql_create_frm创建 .frm 文件,mysql_create_frm 调用栈如下:

#0  mysql_create_frm
#1  rea_create_table
#2  mysql_create_table_no_lock
#3  mysql_create_table
#4  mysql_execute_command
#5  mysql_parse

t3.frm 文件生成后,实例 crash(函数mysql_create_frm 执行完毕后kill mysqld),在数据库中show tables可以看到 test.t3,但是无法插入,数据目录下 t3.frm 文件依然存在。

drop table报错

ERROR 1051 (42S02): Unknown table 'test.t3'

之后数据目录下的t3.frm不存在,show tables 无法看到t3表,可以重新创建t3表。

.ibd 文件由函数fil_create_new_single_table_tablespace创建,fil_create_new_single_table_tablespace调用栈如下:

#0  fil_create_new_single_table_tablespace
#1  dict_build_table_def_step
#2  dict_create_table_step
#3  que_thr_step
#4  que_run_threads_low
#5  que_run_threads
#6  row_create_table_for_mysql
#7  create_table_def
#8  ha_innobase::create
#9  handler::ha_create
#10 ha_create_table
#11 rea_create_table
#12 create_table_impl
#13 mysql_create_table_no_lock
#14 mysql_create_table
#15 mysql_execute_command
#16 mysql_parse

t3.ibd 文件生成后,实例 crash(函数fil_create_new_single_table_tablespace执行完毕后kill mysqld),在数据库中show tables可以看到 test.t3,无法插入数据,在数据目录下存在文件 t3.frm 和 t3.ibd。

drop table依然可以移除 t3.frm 并使show tables无法看到 t3 表。但无法移除 t3.ibd,并在重建 t3 表时报错:

ERROR 1813 (HY000): Tablespace for table '`test`.`t3`' exists. Please DISCARD the tablespace before IMPORT.

在数据目录中删除 t3.ibd ,可以正常重建 t3 表。

这个 bug 的主要原因是 MySQL 的建表过程不是原子操作。如果建表过程正在进行的时候实例 crash,可能会造成一些在实例重启后无法自动恢复的问题。就像这个问题当中的文件残留,无法通过 MySQL 客户端中的操作解决,只能手动删除文件。如果用户是远程连接数据库,又没有登录服务器操作数据文件的权限,就会影响数据库的可用性。

MySQL 5.7 的实验室版本正在设计和实现新版本的数据字典来解决这一问题。这个版本主要由以下几个特性:

  • 数据字典将实现事务存储,首先利用 InnoDB 存储,其他存储引擎可能会跟进开发;
  • 把分布式系统中的字典信息统一成一个整体;
  • 使用统一的规则存储字典信息,给字典对象定义统一的API;
  • 避免文件系统特性带来的问题。

详细信息参见MySQL Server Blog

问题解决

通过问题分析,判断备库无法建表是由于在执行create table语句时备库实例crash,且crash时.ibd 文件已存在。用户发现表创建失败,企图重建表依然失败,之后执行了drop table语句,移除了.frm文件,但.ibd文件依然存在,无法重建表。
将数据目录下的.ibd文件移到其他文件夹作为备份,在备库start slave后建表成功,主备复制正常。