跳转至主内容
Azure

Microsoft Xbox 团队采纳 SRE 角色来构建游戏流媒体

了解运营团队和开发人员是如何成为受信任的合作伙伴以构建全球分布式 Kubernetes 部署的。

阅读完整案例

挑战:创建迈向全球的进程

与许多运营团队一样,Xbox 可靠性工程和运营(xREO)团队过去花费了大量时间执行重复的手动任务,以维护数据中心、部署新代码,并对在并非由他们设计的庞大而严格的体系结构中工作而产生的问题做出反应。团队的努力使服务在 40 多个国家和地区为数百万每月活跃订阅者运行。但是,当团队负责支持 xCloud 项目(一种面向全球游戏玩家具有极低延迟要求的游戏流式处理体验)时,显然需要跳出其传统的服务工程角色、打破团队孤岛,并彻底改变其工作方式。

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."

James Whitesides,Xbox 可靠性与运营团队 SRE 项目经理

通过协作和自动化解决规模问题

在项目早期,开发团队认识到需要引入 xREO 来帮助设计和构建将利用 Azure Global Reach 的新体系结构。从将服务代码与基础结构分离,并将 Kubernetes 作为业务流程的明显选择的容器开始,团队选择了完全托管的 Azure Kubernetes 服务(AKS)来大幅消除管理复杂性。

然而,即使采用这种简化系统,生成每个 Kubernetes 群集所需的手动任务量也会很快让 xREO 团队不堪重负。为了实现可重复性和自动化,团队决定通过 Azure Pipelines 构建持续集成/持续的交付(CI/CD)管道,从而使用 Azure 资源管理器模板快速预配资源。

"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."

James Whitesides,Xbox 可靠性与运营团队 SRE 项目经理

担任具有新使命的新角色

目前,CI/CD 管道向众多 Azure 区域部署了超过 35 个基于 AKS 的微服务(每个区域的微服务依赖于 100 多个资源),且还有更多部署正在进行中。要部署新区域,该团队需添加 6 行代码并等待资源加载。

而凭借完全自动化部署,xREO 团队已转型为站点可靠性工程 (SRE) 角色,他们的大多数时间用来创建新的工具,而不是解决问题。人们经常向他们咨询问题,将他们看作是开发团队信任的合作伙伴,而他们的重心也放在了具有前瞻性、高价值和高回报的工作之上。

详细了解团队到 SRE 角色的转型。

阅读完整案例