阻碍你 AI 进展的 6 大基础设施陷阱

2025 年 3 月 18 日 • 作者: Chaoyu Yang 和 Sherlock Xu

如今,AI 团队面临着不断加快进度的压力。总有一个新的 AI 项目需要快速上线,一个值得集成的前沿开源模型,或是一个可以提高性能的新型推理设置。然而,许多想法并没有快速实现,而是卡在了待办事项列表中,团队们纷纷表示:“基础设施拖慢了我们的速度。”

听起来很熟悉吗?核心问题在于 AI 系统变得越来越复杂,使得在传统基础设施上进行部署变得异常艰难。与传统应用不同,现代 AI 系统需要

  • 在投入生产之前进行频繁更新和一次性评估运行
  • 在单或多个 GPU 上运行大型模型
  • 为数据并行、批处理、请求路由、队列、自动扩缩容、微服务等设置基础设施

这些对于 AI 团队来说是至关重要的考量,但实施工作通常落在专门的基础设施团队身上,这意味着额外的延迟和成本。

理想情况下,AI 团队应该拥有能提供以下能力的基础设施:

  • 灵活集成任何代码、模型和运行时环境
  • 快速开发迭代,并获得即时反馈
  • 快速进行云部署,用于测试、评估和生产
  • 灵活的抽象层,无需复杂配置即可定义 AI 基础设施

当 AI 团队深陷基础设施任务时,创新就会受到影响。这就是我们构建 BentoML 的原因——移除基础设施障碍,帮助 AI 团队更快行动。在与大规模部署 AI 的企业合作过程中,我们发现了导致 AI 团队进展缓慢的 六个常见陷阱。在这篇文章中,我们将分享我们学到的知识以及如何解决这些问题。

1. 你的 AI 团队正在浪费时间在手动基础设施工作上

你的团队刚刚交付了一个可以改善客户体验的新模型。但当你询问何时可以上线时,答案令人沮丧:“我们需要设置基础设施,这可能需要几周时间。”

AI 工作负载需要专门的基础设施,这需要额外的工程工作,包括:

  • 加速器配置(NVIDIA GPU、AMD、TPU 等)
  • 并发控制,实现可靠的批处理和自动扩缩容(包括缩减到零)
  • 计算资源调配(跨区域容量、混合按需和 Spot 实例、共享容量池等)
  • ML/AI 特定的监控和性能追踪
  • 模型特定的功能,例如 LLM 缓存、路由和流机制

除了设置,AI 工程师还必须学习和适应自定义基础设施,从以特定方式构建容器镜像到实现指标收集代码和处理样板配置。这些工作经常在不同项目中重复,只需微调,需要多个团队之间来回协调。长此以往,它们会对业务产生严重影响:

  • 创新缓慢。花在基础设施设置上的时间,就是没有花在 AI 开发上的时间。部署延迟造成的每周损失都减缓了创新并降低了业务影响力。
  • 人才成本上升。 具备 AI 部署专业知识的基础设施专家薪水很高,通常比标准 DevOps 岗位高 30-50%。这显著增加了项目成本。
  • 可靠性风险。 没有专业知识,手动配置会引入人为错误,增加配置错误、部署不稳定和系统故障的风险。如果没有强大的可观测性,问题可能直到影响客户时才会被发现。

AI 团队不能花费数周时间管理基础设施。他们需要专注于构建、迭代和部署模型。

BentoML 解决方案

BentoML 将基础设施的负担从数周的手动工作转变为简单、自动化的流程。这个完全托管的 AI 推理平台 提供:

  • 自动化部署:开发者无需手动构建、配置或推送 Docker 镜像,因为 BentoML 自动化了打包、容器化和部署过程。
  • 内置自动扩缩容 & 请求队列基于并发的自动扩缩容 通过快速冷启动响应不同的流量模式。此外,你可以启用请求队列来缓冲传入流量,防止任何单个服务器过载。
  • 全面的可观测性:BentoML 提供开箱即用的仪表板,用于实时监控模型性能。这包括 LLM 特定的指标,用于跟踪推理效率、延迟和错误。

“BentoML 的基础设施为我们提供了所需的平台,无需招聘任何基础设施工程师即可推出我们的初始产品并进行扩展。随着我们的发展,scale-to-zero 和 BYOC 等功能为我们节省了大量资金。”

—— Patric Fulop,Neurolabs 首席技术官

2. 你的基础设施限制了你使用的 ML 工具

大多数 AI/ML 基础设施实现会将运行时(例如 PyTorch 和 vLLM)锁定到特定版本。主要原因是为了缓存容器镜像并确保与基础设施相关组件的兼容性。虽然这简化了集群部署,但也限制了当你需要测试或部署不受支持列表之外的较新模型或框架时的灵活性。

随着 AI 运行时领域迅速发展,这种限制成为一个更大的挑战。仅对于 LLM,团队必须从不断增加的实现中进行选择(例如 vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 TGI),每种实现都在性能、吞吐量和延迟方面具有不同的权衡。

当 AI 团队被迫在僵化、过时的环境中工作时,这意味着:

  • 竞争劣势。 当你的团队无法利用最前沿的模型/工具时,你就输掉了提供 AI 创新的竞赛。这在金融、零售和医疗保健等快速发展的领域尤其有害。
  • 工程工作量和技术债务增加。 如果没有一种简便的方式来更新运行时,团队将被迫构建变通方案。这些权宜之计越积越多,产生了长期的技术债务,使得未来的部署更加困难。
  • AI 部署延迟。 运行时兼容性问题可能导致部署时间线增加 2-4 周,因为团队要么等待基础设施更新,要么开发复杂的变通方案。

BentoML 解决方案

BentoML 使 AI 团队能够自由使用任何 ML 工具、模型或框架,而无需等待基础设施更新。

  • 统一的 AI 服务基础设施。 BentoML 允许开发者自带推理代码和自定义库,并提供社区驱动的文档和示例,为使用常见 ML/AI 库提供最佳实践。
  • 可定制的运行时。开发者只需一行 Python 代码即可轻松定制运行时环境。BentoML 会自动处理其余部分,确保在开发和部署环境之间实现可重现性。

"BentoML 为我们的研究团队提供了一种简化的方式,可以快速迭代他们的概念验证(POC),并在准备就绪时大规模部署他们的 AI 服务。此外,灵活的架构使我们能够展示和部署从计算机视觉到 LLM 用例的许多不同类型的模型和工作流程。"

—— Thariq Khalid,ELM 研究中心计算机视觉高级经理

3. 你的基础设施是为模型而建,而非 AI 系统

AI 模型本身并不能带来商业价值。它们需要集成到一个更广泛的 AI 系统中。除了简单地加载模型权重外,你可能还需要其他组件,例如:

  • 预处理逻辑,用于清洗、格式化或丰富输入数据
  • 后处理逻辑,用于为最终用户精炼模型输出
  • 推理代码,用于实现复杂管道,特别是对于 GenAI 模型
  • 业务逻辑,用于验证、内部 API 调用或数据转换
  • 数据获取,用于从特征存储或数据库检索额外信息
  • 模型组合,用于构建多模型管道
  • 自定义 API 规范,以确保正确的请求/响应格式

但挑战在于:传统的框架和工具并非为高级代码定制而设计;它们只提供僵化、预定义的 API 结构,灵活性有限。添加自定义逻辑通常意味着拼凑变通方案或将业务逻辑分散到多个服务中。这导致不必要的复杂性和维护开销。

  • 工程工作量增加。 自定义 API 配置通常需要额外的工程工作,减缓了开发速度并延迟了上市时间。
  • 糟糕的开发者体验。 如果 AI 服务无法格式化响应以满足业务需求,开发者可能难以利用已部署的 AI 服务并将其集成到应用中。
  • 创新障碍。 有限的定制化阻止团队创建真正差异化的 AI 产品,这些产品能够以独特的方式解决特定的业务问题。

BentoML 解决方案

BentoML 提供对自定义代码的一流支持

  • 自定义代码与模型共存。BentoML 允许开发者直接在模型部署管道中使用惯用的 Python 自定义预处理、后处理和业务逻辑这些步骤,而不是在不同服务中定义这些逻辑并以完全不同的流程管理它们。

  • 多模型管道 & 分布式 AI 服务。BentoML 提供了简单的抽象层,用于构建以下工作流:

model-to-systems.png
将模型带入 AI 系统

4.漫长的开发迭代周期扼杀创新

你正深入开发,优化模型推理代码和业务逻辑。你改了几行代码,但在测试前却犹豫了:让它再次运行起来可能需要 几十分钟甚至几个小时

为什么?你的模型需要 GPU,而你的笔记本电脑根本没有足够的算力。这意味着你需要将一切重新部署到云端,这个过程涉及:

  1. 将代码发布到自定义 Git 分支进行部署
  2. 等待新的容器镜像构建,包含最新的更改
  3. 将镜像上传到云注册表
  4. 操作多个复杂的 YAML 文件以更新容器镜像标签、模型版本、实例类型或密钥
  5. 等待计算资源就绪
  6. 等待镜像和模型下载到节点上
  7. 等待代码和模型加载
  8. 在日志中搜索进行调试

当你看到一条关于简单配置错误的错误消息时,30 分钟已经过去了。但受影响的不仅仅是代码迭代。对推理设置、模型配置或基础设施的任何调整都会面临同样的问题。对于每一次迭代,你都需要进行完整的端到端评估运行。

这样的开发迭代简直痛苦得慢

当 AI 团队被迫在缓慢的迭代循环中工作时,其后果不仅仅是浪费时间:

  • 高部署风险。缓慢的迭代阻碍了频繁测试。这增加了将未经测试的模型推送到生产环境的风险,导致代价高昂的修复和不稳定的发布。
  • 工程人才流失。AI 工程师在快速、迭代的环境中才能蓬勃发展。当被迫在缓慢的反馈循环中工作时,士气和生产力都会急剧下降。
  • 创新受限。迭代所需时间越长,AI 团队的行动速度就越慢,也就越难保持领先于竞争对手。

BentoML 解决方案

BentoML 为开发者提供了针对代码、模型和基础设施更改的即时反馈循环。

  • 本地开发。当开发环境具备必要的计算资源时,BentoML 支持在本地运行和测试代码。

  • 使用BentoML Codespaces 进行云端开发。它允许你立即在云端运行你的开发环境,并且可以:

    • 从你喜欢的 IDE 访问各种强大的云端 GPU。
    • 在本地进行更改,并实时在云端看到反映。
    • 通过自动配置的即用型环境,消除依赖性困扰。
    • 通过一键部署将模型发布到生产环境,确保开发和生产环境之间的一致性。

    这里有一个演示,展示如何使用 Codespaces 为基于电话呼叫代理构建的应用添加函数调用功能。

  • 快速冷启动。你的代码和模型在更改后可以快速重新加载,最大程度地减少等待时间。

“BentoML 使我们能够以令人难以置信的效率构建和部署 AI 服务。过去需要几天的工作,现在只需几个小时。仅在前四个月,我们就凭借 BentoML 的推理平台将 40 多个模型投入生产。”

—— 纽约证券交易所上市公司技术公司数据科学总监

5. 你的 GPU 不够用

典型的 AI 基础设施绑定到单一云提供商和区域,这可能没有你所需的 GPU 容量。如果你切换到另一家提供商,通常意味着从零开始重建你的基础设施栈,这可能需要数月时间。

当你的团队没有所需的计算资源时,其影响远不止是在队列中等待:

  • AI 功能发布速度变慢。 等待 GPU 数周会延迟产品发布并扼杀创新。
  • 成本虚高。 为了避免没有计算资源可用,许多公司会过度配置 GPU(例如为了应对流量高峰时进行扩容)。有时他们必须支付比实际需要多 2-3 倍的资源。这可能导致年度 AI 基础设施成本增加数十万美元。
  • 安全 & 合规风险。由于数据隐私法规(例如 GDPR),许多企业必须将 AI 工作负载保留在特定区域或私有基础设施中。如果其主要云提供商 GPU 短缺,他们不能随便切换而违反安全政策。

BentoML 解决方案

BentoML 使你的团队拥有随时随地部署模型的自由,无需重新设计你的技术栈

  • 云无关。 BentoML 允许你在任何公共云、AI NeoCloud 或本地基础设施上部署你的模型。你可以选择所需的提供商和区域,让 BentoML 管理计算资源调配,平衡可用性和成本。
  • GPU 利用率最大化。BentoML 确保你只需为你所使用的资源付费,而不是过度配置以保证容量。它通过快速冷启动动态扩缩 GPU 以满足需求。大多数使用 BentoML 的团队的 GPU 利用率平均达到 70% 或更高
  • 合规性与灵活性兼得BentoCloud 的 BYOC 选项确保你可以将敏感数据保存在你的私有 VPC 中,同时不牺牲 GPU 访问权限。

6. 碎片化的推理运维(InferenceOps)限制了你的增长

你终于在云端部署了一些模型。恭喜!起初一切看起来都很顺利。但很快,操作上的混乱就开始了:

  • AI 主管:“我们在生产环境中运行了多少模型?运行模型 A 的成本是多少?”
  • 应用开发者:“这个模型没响应,现在整个应用都瘫痪了。发生什么事了?”
  • DevOps 工程师:“有个 GPU 实例已经运行好几个月了。有人在用它吗?”
  • AI 实习生:“我在这个 ML 服务中修复了一个小 bug。我怎么部署它?”

这些问题凸显了一个根本性问题:缺乏标准化。没有统一的 AI 运维——我们称之为 InferenceOps,日常任务就变成了耗时的跨团队协调。

随着你扩大 AI 部署规模,碎片化问题会加剧。更多的模型和类型、更频繁的更新以及更多的云和区域都需要标准化的工作流程和集中管理。否则,维护问题会加剧,导致:

  • 运营效率低下。 ML、DevOps 和安全团队之间的手动交接减缓了迭代周期,限制了你扩展 AI 工作负载的能力。
  • 性能下降。没有适当的可观测性,AI 模型可能会漂移和退化,导致预测准确性降低和业务成果不佳。
  • 成本增加和服务中断风险。管理不善的 GPU 实例、未使用的资源和缺乏自动化导致基础设施成本浪费以及服务中断的更大风险。它们会影响收入和终端用户体验。

BentoML 解决方案

BentoML 提供面向未来的基础设施,支持可伸缩的 AI 维护和 InferenceOps。

  • 简化的部署管理。开发者可以通过一套 CLI 和 Python API 直接从 GitHub 或本地开发环境运行和管理部署。
  • 集中式可观测性。团队可以检测漂移、跟踪推理质量、监控 GPU 利用率,并确保 AI 模型随着时间保持优化。
  • 可扩展的 InferenceOps。通过标准化的开发、部署和维护工作流程,BentoML 确保团队能够以统一的方式高效管理多个 AI 模型和系统。

结论

将 AI 模型从开发推向生产不应该需要几个月时间。然而,对于许多团队来说,事实确实如此。上述六个陷阱常常阻碍团队前进,延迟创新并增加成本。

BentoML 通过自动化部署、扩缩容和基础设施管理来移除这些障碍。这使得 AI 团队能够专注于他们最擅长的事情:构建驱动业务价值的创新 AI 解决方案。借助 BentoML,团队可以将 AI 开发速度提高多达 20 倍,更快地将模型投入生产并保持竞争优势。

准备好更快地部署 AI 模型了吗?