驾驭AWS服务限制：预防、监控与解决策略

AWS可以快速扩展，但您的账户仍然有配额限制。如果您的部署突然无法创建EC2容量、附加更多IP或提升Lambda并发，您可能遇到了AWS服务配额问题，而非应用程序错误。

将配额视为架构的一部分。它们因服务、账户和区域而异，有些可以提升，而另一些则需要设计变更。

理解AWS服务限制

AWS服务配额是对账户中资源或操作的限制。它们有助于保护AWS服务和客户账户免受失控使用的影响，但如果您没有提前规划，它们也可能阻碍合理的增长。

可调整配额 vs. 固定配额

区分两种主要类型的AWS服务限制至关重要：

可调整配额： 通常可以通过Service Quotas控制台或AWS Support案例来提升。
固定配额： 无法为您的账户提升。您需要围绕它们重新设计、拆分工作负载或使用不同的服务模式。

服务限制为何重要

超出配额通常表现为资源创建失败、API调用被限流或扩展提前停止。例如，如果账户在该区域没有足够的EC2 vCPU配额，Auto Scaling组可能健康但无法启动更多实例。

主动监控AWS服务限制

发现配额问题的最佳时机是在发布或流量事件之前。AWS提供了多种查看配额值的方法，对于某些服务，还可以查看当前使用情况。

AWS Trusted Advisor

AWS Trusted Advisor可以标记一些使用量接近限制的服务配额。可用性和详细信息因支持计划和服务而异，因此将其作为有用的信号，而非唯一来源。

AWS Service Quotas控制台

AWS Service Quotas是查看许多账户配额以及为可调整配额请求提升的主要位置。

使用Service Quotas控制台：

导航到AWS账户中的Service Quotas控制台。
您可以搜索特定服务（例如“EC2”、“RDS”、“S3”）。
对于许多配额，您可以查看应用值、默认值、是否可调整，有时还能看到利用率。
对于可调整配额，直接从配额详情页面请求提升。

示例： 要检查特定区域的EC2 vCPU限制：

转到Service Quotas。
从服务列表中选择“EC2”。
查找相关的运行中按需vCPU配额，例如标准实例系列的配额。
控制台将显示您的当前使用量和最大限制。

CloudWatch告警

对于某些配额，Service Quotas会将使用量指标发布到CloudWatch。对于其他服务，您可能需要服务特定的指标或自定义清单任务。例如，Lambda有并发指标，可以在限流影响请求之前发出警告。

AWS CLI检查

您可以在部署管道中编写配额检查脚本：

aws service-quotas list-service-quotas --service-code ec2 --region us-east-1

对于生产部署，在Terraform、CloudFormation或CDK尝试创建资源之前，将预期的资源增长与已应用的配额进行比较。

管理服务限制的策略

一旦您了解了如何监控限制，就可以实施策略来有效管理它们。

1. 了解应用程序的需求

在部署或扩展应用程序之前，分析其资源需求。这包括：

峰值负载考虑： 预期的最大并发用户数或请求率是多少？
资源类型： 将使用哪些特定的AWS服务和资源类型（例如EC2实例类型、RDS数据库大小、Lambda并发）？
区域分布： 您的资源将部署在哪里？

此分析将帮助您预测最可能遇到哪些限制。

2. 为可扩展性和弹性设计

构建应用程序时，应具备水平扩展（添加更多实例/单元）的能力，而不是仅仅依赖垂直扩展（更大的实例/单元）。这种方法可以分散负载，并降低达到单个资源限制的风险。

Auto Scaling组： 使用EC2 Auto Scaling应对需求变化，但需验证账户是否有足够的vCPU配额来支持最大容量。
无服务器架构： Lambda和API Gateway消除了服务器管理，但它们仍然有并发、负载、超时和请求配额。

3. 优化资源使用

定期审查已部署的资源，确保它们被有效使用。关闭未使用的实例，合理调整数据库大小，并删除未附加的EBS卷。

标记： 为资源实施强大的标记策略。这有助于更轻松地跟踪所有权、成本和使用情况，从而帮助识别未充分利用的资源。
成本和使用报告： 分析您的AWS成本和使用报告，以识别潜在的过度配置区域。

4. 主动请求提升限制

不要等到遇到限制时才请求提升。如果您的应用程序预期增长或计划事件（如营销活动或产品发布）表明您可能超出软限制，请提前提交请求。

如何请求提升限制：

转到AWS Service Quotas控制台。
导航到需要提升的特定服务和配额。
选择配额并点击**“请求配额提升”**按钮。
在请求表中提供详细信息：
- 新配额值： 所需的限制。
- 请求原因： 解释为什么需要提升。请具体说明您的用例、预期使用量和时间范围。
- AWS区域： 指定需要提升的区域。
提交请求。

AWS可能会快速批准某些请求，而其他请求则需要审核，可能需要更长时间。在需要之前请求提升，特别是对于发布、迁移和负载测试。

请求提升的提示：

精确说明： 说明确切的配额和您需要的确切数字。
证明需求： 一个有充分理由的解释，附带数据（预期使用量、当前利用率），可以显著提高批准几率。
提前请求： 留出足够的时间进行审核，并让您的团队在批准后进行测试。

5. 理解硬限制

对于固定配额，围绕它们进行架构设计。常见选项包括跨账户分配工作负载、使用多个区域、排队工作、批量处理API调用或选择更合适的服务。

常见的AWS服务限制及其管理方法

让我们看看一些经常遇到的服务限制及其管理策略：

Amazon EC2

配额： 按实例系列划分的运行中按需vCPU、弹性IP地址、EBS卷、EBS IOPS、VPC、子网、安全组和网络接口。
管理： 按区域监控vCPU使用量，在扩展事件前请求提升，并移除未使用的弹性IP和卷。

Amazon S3

配额： S3有服务配额，例如每个账户的存储桶限制，以及针对高吞吐量工作负载的每个前缀请求速率指导。
管理： 对于非常高的请求速率，使用多个前缀；对于读取密集型公共内容，使用CloudFront；并使用S3指标获得可见性。

Amazon RDS

配额： 数据库实例、集群、快照、存储和参数组有账户或区域配额。连接限制在很大程度上取决于引擎和实例类。
管理： 合理调整实例大小，为读取密集型工作负载使用只读副本，并在迁移或环境扩展之前请求提升配额。

AWS Lambda

配额： 账户并发、预留并发、预置并发、负载大小、超时、内存和部署包限制。
管理： 监控并发和限流，为关键函数设置预留并发，并在流量高峰前请求提升账户并发。

解决服务限制超出错误

如果遇到“Service Limit Exceeded”错误：

确定具体的服务和限制： 错误消息通常会提供此信息。
检查当前使用量： 使用Service Quotas控制台或Trusted Advisor确认使用量是否接近限制。
确定是可调整还是固定： 如果是可调整的，继续请求提升。
提交限制提升请求： 按照“主动请求提升限制”部分中的步骤操作。准备好提供详细信息。
如果是固定配额： 重新设计您的解决方案。考虑：
- 将工作负载分布到多个AWS账户。
- 使用没有相同硬限制的不同AWS服务。
- 实施排队系统或批处理来处理超出限制的操作。

要点

在每次重大发布或迁移之前，检查将要扩展的服务的配额。提前请求可调整配额的提升，为重要的限制添加告警，并记录固定配额的重新设计路径。配额工作提前做时悄无声息，但在中断期间发现时则令人痛苦。