AWS 完善架构框架是一份全面的指南,旨在帮助用户在 AWS 云上构建和运营可靠、安全、高效、成本优化和可持续的系统。该框架基于六大支柱,提供了一套设计原则和最佳实践,通过自动化、数据驱动的决策和持续改进,显著提升业务成功率。例如,通过停止未使用的开发/测试资源,可实现高达 75% 的成本节约,同时 Amazon S3 提供 99.999999999% 的对象持久性。
核心结论
AWS 完善架构框架基于运维卓越、安全、可靠性、性能效率、成本优化和可持续性六大支柱,为云上系统设计提供全面指导。
框架强调通过自动化、数据驱动的决策、频繁的小型可逆变更以及从运营事件中学习,持续改进架构和运营流程。
安全支柱的核心在于建立强大的身份基础、维护可追溯性、在所有层面应用安全、自动化安全最佳实践、保护静态和传输中的数据,并为安全事件做好准备。
可靠性支柱鼓励自动从故障中恢复、测试恢复程序、横向扩展以提高可用性、停止猜测容量,并通过自动化管理变更。
成本优化支柱倡导实施云财务管理、采用消费模型、衡量整体效率、避免无差别重复劳动,并分析和归因支出。
可持续性支柱关注测量和理解云工作负载的环境影响,设定可持续性目标,最大化资源利用率,并采纳更高效的硬件和软件。
关键数据
报告背景
这份《AWS 完善架构框架》报告由 Amazon Web Services, Inc. 于 2024 年 11 月 6 日发布。该框架旨在帮助技术角色(如首席技术官、架构师、开发人员和运营团队成员)理解在 AWS 上构建系统时决策的利弊。通过使用该框架,用户可以学习设计和运营安全、可靠、高效、成本优化和可持续的云工作负载的架构最佳实践。报告还提供了一种衡量架构与最佳实践一致性并识别改进领域的方法,强调通过建设性对话而非审计机制来审查架构决策。
核心内容
框架简介与定义
AWS 完善架构框架提供了一套基础性问题,帮助评估特定架构是否符合云最佳实践。该框架基于 AWS 解决方案架构师在设计和审查数千个客户架构的经验,总结出了一系列最佳实践和核心策略。
框架的六大支柱是:
- 运维卓越 (Operational Excellence):有效支持开发和运行工作负载,深入了解其运营情况,并持续改进支持流程和程序以交付业务价值。
- 安全 (Security):利用云技术以保护数据、系统和资产,从而提升安全态势。
- 可靠性 (Reliability):工作负载在预期时能够正确且持续地执行其预期功能的能力,包括在整个生命周期中运行和测试工作负载的能力。
- 性能效率 (Performance Efficiency):高效利用云资源以满足性能要求,并在需求变化和技术演进时保持这种效率的能力。
- 成本优化 (Cost Optimization):以最低价格点运行系统以交付业务价值的能力。
- 可持续性 (Sustainability):通过减少能源消耗和提高工作负载所有组件的效率,最大限度地利用已配置资源并最小化所需总资源,从而持续改善可持续性影响的能力。
通用设计原则
该框架提出了在云中进行良好设计的一系列通用设计原则:
- 停止猜测容量需求:利用云的弹性,按需使用容量并自动扩展,避免资源闲置或容量不足。
- 在生产规模下测试系统:在云中按需创建生产规模的测试环境,完成测试后即可停用资源,以较低成本模拟生产环境。
- 以架构实验为导向进行自动化:通过自动化以低成本创建和复制工作负载,避免手动操作的开销,并可追踪变更、审计影响和回滚。
- 考虑演进式架构:在云中,自动化和按需测试的能力降低了设计变更的风险,使系统能够随着业务需求和创新而演进。
- 数据驱动架构:收集架构选择如何影响工作负载行为的数据,以做出基于事实的改进决策。
- 通过演练日改进:定期安排演练日以模拟生产事件,测试架构和流程的性能,从而发现改进点并积累组织经验。
框架支柱的核心实践
运维卓越
运维卓越支柱关注团队组织、工作负载设计、规模化运营和持续演进。
- 设计原则:围绕业务成果组织团队、实施可观测性以获取可操作的洞察、尽可能安全地自动化、频繁进行小型可逆变更、经常完善运营程序、预测故障、从所有运营事件和指标中学习、使用托管服务。
- 最佳实践领域:组织、准备、运营、演进。例如,在“准备”阶段,强调设计工作负载以提供其内部状态(指标、日志、事件、跟踪)所需的信息,并利用可观测性主动识别和预防问题。
安全
安全支柱旨在保护数据、系统和资产,利用云技术提升安全态势。
- 设计原则:实施强大的身份基础、维护可追溯性、在所有层面应用安全、自动化安全最佳实践、保护传输中和静态数据、让人远离数据、为安全事件做好准备。
- 最佳实践领域:安全基础、身份和访问管理、检测、基础设施保护、数据保护、事件响应、应用安全。例如,在“身份和访问管理”中,强调使用临时凭证而非长期凭证,并依赖集中式身份提供商。
可靠性
可靠性支柱关注工作负载在预期时能够正确且持续地执行其预期功能。
- 设计原则:自动从故障中恢复、测试恢复程序、横向扩展以提高聚合工作负载可用性、停止猜测容量、通过自动化管理变更。
- 最佳实践领域:基础、工作负载架构、变更管理、故障管理。例如,在“故障管理”中,强调数据备份、应用程序和配置,以满足恢复时间目标 (RTO) 和恢复点目标 (RPO) 的要求。
性能效率
性能效率支柱关注高效利用云资源以满足性能要求,并在需求变化和技术演进时保持这种效率。
- 设计原则:普及先进技术、在几分钟内实现全球部署、使用无服务器架构、更频繁地实验、考虑机械同情。
- 最佳实践领域:架构选择、计算和硬件、数据管理、网络和内容交付、流程和文化。例如,在“计算和硬件”中,强调选择最适合工作负载的计算选项,如 EC2 实例、容器或 Lambda 函数。
成本优化
成本优化支柱旨在以最低价格点运行系统以交付业务价值。
- 设计原则:实施云财务管理、采用消费模型、衡量整体效率、避免无差别重复劳动、分析和归因支出。
- 最佳实践领域:实践云财务管理、支出和使用意识、成本效益资源、管理需求和供应资源、随时间优化。例如,在“成本效益资源”中,强调根据工作负载和资源特性选择资源大小和类型,以最大限度地减少浪费。
可持续性
可持续性支柱关注环境影响,特别是能源消耗和效率。
- 设计原则:理解您的影响、建立可持续性目标、最大化利用率、预测和采纳更高效的硬件和软件产品、使用托管服务、减少云工作负载的下游影响。
- 最佳实践领域:区域选择、与需求对齐、软件和架构、数据、硬件和服务、流程和文化。例如,在“与需求对齐”中,强调动态扩展基础设施以匹配需求,并移除未使用的资产。
审查流程
架构审查应以一致、无责备的方式进行,鼓励深入探讨。它应该是一个轻量级的对话过程,而非审计。审查的目的是识别可能需要解决的关键问题或可以改进的领域,以提升客户使用工作负载的体验。AWS 建议团队成员持续审查其架构,并在产品生命周期的关键里程碑进行审查。
数据亮点
- Amazon S3 对象持久性:Amazon S3 Standard、S3 Standard-IA 和 S3 One Zone-IA 旨在提供每年 99.999999999%(11 个 9)的对象持久性,平均每年预期对象丢失率为 0.000000001%。
- 开发和测试环境成本节约:通过在非工作时间停止开发和测试环境资源,可实现高达 75% 的潜在成本节约(40 小时对比 168 小时)。
- GPU 实例能源效率:Inf2 实例在性能/功耗方面比同类 Amazon EC2 实例高出 50%,并且两个以 30% 利用率运行的主机比一个以 60% 利用率运行的主机效率低。
- AWS 全球加速器性能提升:AWS 全球加速器可将用户流量性能提高多达 60%,并为多区域架构提供快速故障转移。
- Spot 实例成本节约:Spot 实例允许以高达 90% 的折扣价请求未使用的 Amazon EC2 计算容量。
- AWS 价格下调:截至 2023 年 9 月 20 日,AWS 自 2006 年以来已下调价格 134 次。
趋势与展望
AWS 完善架构框架的趋势和展望主要体现在以下几个方面:
- 持续演进与现代化:报告强调,AWS 会不断发布新的服务和功能,鼓励用户持续学习、实验和采纳最新技术来优化工作负载。这意味着云架构并非一成不变,而是需要持续迭代和现代化,以保持性能效率、成本效益和安全性。
- 自动化与智能化:框架在各个支柱中都强调了自动化的重要性,例如自动化部署、安全控制、事件响应和容量管理。此外,报告多次提及 AI/ML 服务的应用,如 Amazon Q Developer 用于提高开发效率和代码质量,Amazon DevOps Guru 用于异常检测和智能推荐,以及 Amazon SageMaker AI Inference Recommender 用于优化 ML 推理端点。这表明未来云运营将更加依赖 AI 驱动的自动化和智能决策。
- 可观测性与数据驱动决策:报告强调了可观测性(Metrics, Logs, Traces)在运维卓越和性能效率中的核心作用。通过 Amazon CloudWatch、AWS X-Ray 等工具收集和分析数据,实现对工作负载健康状况的全面理解,从而做出数据驱动的决策,而非依赖猜测或直觉。
- 多账户与集中式治理:为了管理复杂性和规模,框架推荐采用多账户策略和集中式治理机制,如 AWS Organizations 和 AWS Control Tower,以实现安全隔离、成本归因和合规性。这有助于在保持灵活性和创新能力的同时,确保整个组织范围内的策略一致性。
- 可持续性成为核心考量:可持续性被提升为框架的第六大支柱,表明其在云架构设计中的日益重要性。未来的趋势将是更深入地理解和量化云工作负载的环境影响,并积极采纳能源效率高的服务、优化资源利用率,以实现碳足迹的最小化。
- 弹性与韧性:框架强调构建具有弹性、能够抵御故障并快速恢复的系统。这包括利用云的弹性进行动态伸缩、实施故障隔离、测试恢复程序(如演练日和混沌工程),以及在设计中考虑静态稳定性以防止双模行为。
总而言之,AWS 完善架构框架的未来展望是构建一个高度自动化、智能化、数据驱动、具有强大弹性且对环境负责的云生态系统,以支持业务的持续创新和成功。