常见的MySQL性能瓶颈及解决方法

当MySQL变慢时，第一个症状很少是“数据库慢”。通常是结账页面挂起、队列停止处理、仪表板超时，或者API突然需要三秒钟才能完成一个原本只需80毫秒的请求。

最快浪费时间的方式是在知道等待在哪里之前调整随机设置。从一个简单的问题开始：MySQL是在等待查询工作、锁、内存、磁盘、CPU、网络，还是太多连接？修复方法取决于答案。

1. 慢查询

慢查询可以说是最常见的性能瓶颈。它们可能由多种因素引起，包括低效的查询设计、缺少索引或大表扫描。识别这些查询是解决问题的第一步。

识别慢查询

MySQL慢查询日志是一个宝贵的工具，用于识别执行时间超过指定阈值的查询。您可以在my.cnf（或my.ini）配置文件中启用和配置此日志。

示例my.cnf配置：

[mysqld]
slow_query_log = 1
slow_query_log_file = /var/log/mysql/mysql-slow.log
long_query_time = 2
log_queries_not_using_indexes = 1

在此示例中：

slow_query_log = 1：启用慢查询日志。
slow_query_log_file：指定日志文件的路径。
long_query_time = 2：将阈值设置为2秒。执行时间超过此值的查询将被记录。
log_queries_not_using_indexes = 1：记录不使用索引的查询，这些查询通常是优化的主要候选。

启用日志后，您可以分析其内容。像mysqldumpslow这样的工具可以帮助汇总和排序日志文件，从而更容易定位最有问题的查询。

优化慢查询

一旦识别出慢查询，可以采用多种策略：

索引：确保为WHERE、JOIN、ORDER BY和GROUP BY子句中使用的列创建适当的索引。使用EXPLAIN分析查询执行计划并识别缺少的索引。
- 示例：如果查询经常按user_id过滤大型orders表，则在orders(user_id)上创建索引可以显著提高性能。
```
CREATE INDEX idx_user_id ON orders (user_id);
```
查询重写：有时，可以重写查询以提高效率。这可能涉及简化连接、避免SELECT *或更明智地使用子查询。
- 示例：用JOIN替换相关子查询可能会提供更好的性能。
数据库模式设计：审查数据库模式是否存在规范化问题或谨慎地反规范化的机会，也可能有所帮助。

2. 低效的索引

虽然索引是查询性能的关键，但设计不良或过多的索引也可能成为瓶颈。索引会消耗磁盘空间并增加写操作（INSERT、UPDATE、DELETE）的开销。

识别索引问题

EXPLAIN计划分析：在进行索引更改前后始终使用EXPLAIN。查找大表上的全表扫描（type: ALL），或检查的行数远高于返回的行数。
```
EXPLAIN SELECT * FROM users WHERE email = '[email protected]';
```
未使用的索引：MySQL 5.6+有一个跟踪索引使用情况的功能。您可以检查performance_schema.table_io_waits_summary_by_index_usage来识别从未或很少使用的索引。
冗余索引：覆盖相同列或作为其他索引前缀的索引可能是冗余的。

索引最佳实践

选择性索引：仅根据查询模式在真正需要的地方创建索引。
复合索引：对于在多个列上过滤的查询，考虑复合索引。复合索引中列的顺序很重要。
覆盖索引：力求覆盖索引，其中查询所需的所有列都包含在索引中。这允许MySQL直接从索引检索数据，而无需访问表。
定期审查：定期审查索引，尤其是在模式更改或应用程序使用发生变化之后。

3. 缓冲池和内存配置

InnoDB缓冲池是一个关键的内存区域，InnoDB在其中缓存数据和索引页。缓冲池大小不足会导致过多的磁盘I/O，从而显著降低操作速度。

调整InnoDB缓冲池

innodb_buffer_pool_size参数是InnoDB性能最重要的设置之一。

建议：对于专用数据库服务器，将innodb_buffer_pool_size设置为可用RAM的50-75%是一个常见的起点。某些系统可以设置得更高，但前提是操作系统没有交换并且连接内存得到控制。

示例my.cnf配置：

[mysqld]
innodb_buffer_pool_size = 8G

这将缓冲池设置为8 GB。

监控：观察缓冲池读取模式。非常高的命中率通常意味着大多数读取是从内存中提供的，但这并不能证明每个查询都是健康的。您可以使用以下命令进行监控：

SHOW GLOBAL STATUS LIKE 'Innodb_buffer_pool_read_requests';
SHOW GLOBAL STATUS LIKE 'Innodb_buffer_pool_reads';

命中率可以计算为(Innodb_buffer_pool_read_requests - Innodb_buffer_pool_reads) / Innodb_buffer_pool_read_requests。

其他内存设置

innodb_log_file_size：影响写入性能和恢复时间。较大的文件可以提高写入吞吐量，但会增加崩溃后的恢复时间。
innodb_flush_log_at_trx_commit：控制持久性与性能。将其设置为1（默认）可确保完全的ACID合规性，但可能较慢。将其设置为0或2可以提高性能，但会牺牲一些持久性保证。

4. 锁问题和并发性

锁定对于数据一致性至关重要，但如果管理不当，可能会成为瓶颈。过多的锁定可能导致查询争用、超时和死锁。

识别锁定问题

SHOW ENGINE INNODB STATUS：此命令提供有关InnoDB内部状态的详细信息，包括活动事务、持有的锁和锁等待。
Performance Schema锁表：在MySQL 8.0中，使用Performance Schema表，如data_locks和data_lock_waits。旧版本通过information_schema表公开锁信息。
监控工具：性能监控工具通常可以突出显示高锁等待时间或死锁。

解决锁定问题

优化导致锁的查询：更短、更高效的查询减少了锁持有的时间。
事务管理：保持事务尽可能短。避免在需要大量锁定的事务中执行长时间运行的操作。
锁粒度：InnoDB对大多数操作使用行级锁定，这通常有利于并发性。然而，了解查询如何升级为表锁（例如，没有在线DDL的ALTER TABLE）很重要。
死锁检测和解决：MySQL有一个死锁检测器。当检测到死锁时，InnoDB通常会回滚其中一个涉及的事务，允许另一个继续。分析来自SHOW ENGINE INNODB STATUS的死锁信息，以了解原因并调整应用程序逻辑或查询顺序。

5. 资源争用（CPU、磁盘、网络）

即使查询优化和配置正确，硬件资源不足或对这些资源的争用也可能限制性能。

识别资源瓶颈

CPU使用率：mysqld进程的高CPU使用率可能表明查询效率低下、大量排序或处理能力不足。
磁盘I/O：高磁盘读写活动，尤其是缓冲池命中率低时，表明磁盘I/O是瓶颈。在Linux系统上查找高iowait时间。
网络吞吐量：大量结果集传输或大量客户端连接可能导致过多的网络流量。

解决资源瓶颈

硬件升级：有时，最简单的解决方案是添加CPU、RAM或更快的存储。只有在您知道工作负载合理的情况下才将其视为修复；硬件可以隐藏糟糕的查询，但很少能使其消失。
查询优化：减少处理和传输的数据量，从而间接减少CPU、磁盘和网络负载。
连接池：在应用程序中实现连接池，以减少建立新连接的开销并有效管理活动连接数。
只读副本：对于读取密集型工作负载，考虑设置只读副本，将读取负载从主服务器分散出去。

压力下的分流流程

当事件发生时，不要从完整的调优项目开始。首先快速了解情况。

检查活动查询：

SHOW FULL PROCESSLIST;

如果您看到许多会话卡在同一个查询上，请捕获它。如果您看到许多会话在等待锁，不要随机杀死东西；首先识别阻塞事务。

检查InnoDB状态：

SHOW ENGINE INNODB STATUS\G

查找死锁、锁等待、检查点压力和长时间运行的事务。一个已经打开一小时的事务可能会阻碍清理工作，并使不相关的查询变慢。

检查服务器是否饱和：

top
vmstat 1
iostat -xz 1
ss -s

高CPU和低I/O通常指向昂贵的查询执行、排序、解析或过多并发。高iowait指向存储。交换活动是一个危险信号；MySQL在交换压力下通常行为不可预测。

然后检查过去几分钟的慢查询日志，而不仅仅是历史最差的查询。导致今天事件的查询可能是新的，与部署相关，或与仅在高峰时段出现的流量模式相关。

连接风暴

一个常见的MySQL瓶颈不是单个糟糕的查询，而是太多应用程序连接执行少量工作。如果每个Web工作者都打开自己的连接，并且应用程序突然扩展，MySQL可能会花费太多时间调度会话和分配每个连接的内存。

症状包括：

Threads_connected急剧上升。
Threads_running保持高位。
应用程序错误，如Too many connections。
CPU上升而没有明显的一个慢查询。

有用的检查：

SHOW GLOBAL STATUS LIKE 'Threads%';
SHOW GLOBAL VARIABLES LIKE 'max_connections';

修复方法通常在应用程序层：使用连接池，设置合理的池限制，并明确超时。提高max_connections可以争取时间，但如果每个连接都使用内存进行连接、排序和临时表，也可能使服务器更严重地崩溃。

临时表和排序

带有GROUP BY、ORDER BY、DISTINCT或大型连接的查询可能会创建临时表。一些临时表保留在内存中。较大的临时表会溢出到磁盘。磁盘临时表不一定是灾难，但突然增加通常可以解释延迟峰值。

检查：

SHOW GLOBAL STATUS LIKE 'Created_tmp%';

然后检查查询计划。如果EXPLAIN显示Using temporary和Using filesort，询问索引是否可以同时支持过滤和排序。例如：

SELECT customer_id, created_at, total
FROM orders
WHERE status = 'paid'
ORDER BY created_at DESC
LIMIT 50;

在(status, created_at)上的索引可以减少过滤和排序工作。在某些情况下，增加tmp_table_size可能会有所帮助，但这是每个会话的风险。如果许多会话同时分配大型临时表，内存会迅速消失。

复制延迟作为性能症状

如果读取指向副本，复制延迟可能看起来像数据库性能问题，即使主服务器正常。用户刷新页面但看不到自己的更改。后台作业读取过时的行。报告不一致。

使用适合您MySQL版本的工检查副本状态：

SHOW REPLICA STATUS\G

旧版本使用：

SHOW SLAVE STATUS\G

延迟可能来自副本上的慢SQL、主服务器上的大事务、副本硬件不足、逐行维护作业或网络问题。修复方法可能是查询调优、将大写入分解为更小的块、改进副本资源或更改新鲜读取的路由位置。

首先更改什么

优先选择减少工作的修复：

为已验证的热点查询添加或调整索引。
重写查询以读取更少的行。
缩短持有锁的事务。
限制连接池大小，以免MySQL被淹没。
将重型报告移离主服务器。

对仅增加容量的修复要更加谨慎：

提高max_connections。
全局增加排序和连接缓冲区。
增加临时表限制。
添加副本而不修复影响它们的查询。

容量更改有其位置，但它们应该基于证据。一个好的MySQL故障排除会话会让您减少数据库工作量，而不仅仅是拥有一个更大的服务器做相同的浪费性工作。