2019-12-17 基础设施团队会议

2019 年 12 月 20 日 · Pietro Albini 代表 基础设施团队

会议由 pietroalbini 主持。会议记录由 pietroalbini 撰写。
出席人员:aidanhs, alexcrichton, kennytm, Mark-Simulacrum, pietroalbini, shepmaster

突发的 Chocolatey 故障

从几天前开始,Chocolatey 开始随机返回 503 错误码,导致部分 Windows CI runner 无法下载 MSYS2,并且树被关闭以防止这些故障影响大量 PR。关于如何解决这些问题,有一些提案,从适当的镜像实现到仅仅是快速修复以使 CI 再次工作。

经过讨论,团队同意优先让 CI 持续稳定运行,而不是从一开始就实施最正确的解决方案。 aidanhs 将在周末调查此事,如果在此之前没有人完成这项工作的话。

将基础设施迁移到 Terraform 的进展

在过去几个月里,pietroalbini 开始探索将 Rust 的 AWS 基础设施配置迁移到 Terraform,以实现更好的协作和可审计性。目前已有几个服务迁移到 Terraform,pietroalbini 在会上提议评估将动态应用程序迁移到 ECS 并使用 Terraform 进行配置。

alexcrichton 提出了一个观点,即 pietroalbini 是目前团队中唯一熟悉我们 Terraform 设置的人,虽然这可能比现状更好的解决方案,但在我们决定完全承诺使用它之前,我们需要更多的人能够使用它。他承认目前的解决方案(通过控制台手动配置服务)既不可扩展也不是长期之计,但如果团队大部分成员不知道如何使用 Terraform,我们就不能贸然转向它。

shepmaster 说这与过去的情况没有太大不同,过去只有 alexcrichton 知道我们的基础设施如何运作(从那时起,团队中的其他人也赶上了)。 aidanhs 指出,我们过去曾有过这样的案例,当时只有 alexcrichton 知道一个系统如何运作,而当他度假时,系统就崩溃了。

alexcrichton 提议暂停投入时间到 Terraform,直到至少另一位团队成员熟悉它,而 Mark-Simulacrum 表示他愿意花几个小时与 pietroalbini 结对,将其中一个服务迁移到 Terraform,并在过程中学习如何操作。

关于 ECS 的看法也大致相同:每个人都认为这肯定比我们目前的设置更好,但只有 pietroalbini 熟悉它。我们一致同意 pietroalbini 和 Mark-Simulacrum 将在结对时使用 Terraform 将其中一个小型应用程序部署到 ECS,一次性测试这两项新事物。

最后,pietroalbini 提醒团队,并非我们目前托管的所有应用程序都能在不进行更改的情况下适应 ECS + Fargate,特别是因为它无法真正在文件系统上持久化数据,但他提到他愿意进行实施工作来调整那些不再使用文件系统的应用程序。