2019-12-17 基础设施团队会议

2019 年 12 月 20 日 · Pietro Albini 代表基础设施团队

会议由 pietroalbini 主持。会议记录由 pietroalbini 撰写。
出席人员:aidanhs、alexcrichton、kennytm、Mark-Simulacrum、pietroalbini、shepmaster

Chocolatey 虚假故障

几天前,Chocolatey 开始随机返回 503 错误代码,阻止一些 Windows CI 运行器下载 MSYS2,并且为了防止这些故障影响大量的 PR,代码仓库被关闭。关于如何解决这些问题,有一些提议,从正确的镜像实现到仅仅为了让 CI 重新工作的快速修复。

经过讨论,团队同意优先保证 CI 的稳定运行,而不是一开始就实现正确的解决方案。如果在此之前没有人完成这项工作,aidanhs 将在周末研究这个问题。

将基础设施迁移到 Terraform 的进展

在过去的几个月里,pietroalbini 开始探索将 Rust 的 AWS 基础设施配置迁移到 Terraform,以便更好地协作和审计。到目前为止,一些服务已经迁移到 Terraform,pietroalbini 在会议上提议评估将动态应用程序迁移到 ECS 并使用 Terraform 配置它们。

alexcrichton 提出,目前 pietroalbini 是团队中唯一熟悉我们的 Terraform 设置的人,虽然它可能比现状更好,但我们需要更多人能够使用它,才能决定完全致力于使用它。他承认当前解决方案(通过控制台手动配置服务)既不具有可扩展性,也不是长期的解决方案,但是如果团队中的大多数人不知道如何使用它,我们就不能直接跳到 Terraform。

shepmaster 说这与过去的情况并没有太大区别,当时 alexcrichton 是唯一了解我们基础设施如何工作的人(从那时起,团队中的其他人也开始了解)。 aidanhs 指出,过去我们遇到过类似的情况,当时只有 alexcrichton 知道一个系统是如何工作的,当他休假时系统就崩溃了。

alexcrichton 提议暂停在 Terraform 上投入时间,直到至少另一位团队成员熟悉它,Mark-Simulacrum 表示他愿意与 pietroalbini 配对几个小时,将其中一个服务迁移到 Terraform,并在过程中学习它的工作原理。

关于 ECS 的感受也大致相同:每个人都同意它肯定比我们现在的设置更好,但是只有 pietroalbini 熟悉它。我们同意 pietroalbini 和 Mark-Simulacrum 将在配对的同时使用 Terraform 将其中一个小型应用程序部署到 ECS,同时测试这两项新事物。

最后,pietroalbini 提醒团队,我们目前托管的并非每个应用程序都可以在不做更改的情况下适应 ECS + Fargate,特别是因为你无法真正地将数据持久化到文件系统,但他提到他愿意进行实施工作,使这些应用程序不再使用文件系统。