BentoML: 统一推理平台

以无与伦比的速度和灵活性构建可扩展的 AI 系统。在您的云中部署，更快地迭代，并以更低的成本扩展。

开始使用

自带云

开始使用

自带云

深受全球富有远见的 AI 团队信赖

探索更多探索更多

开源服务引擎

构建推理 API、任务队列和复合 AI 系统
本地开发和调试
开放生态系统，包含数百种集成

性能

高吞吐量、低延迟的 LLM 推理
根据您的需求平衡成本、速度和吞吐量
充分利用您的 GPU 资源

自动扩缩容

基于流量的自动水平扩缩容
极快的冷启动
多模型流水线的模块化扩缩容

快速迭代

使用云端 GPU 进行构建和调试
即时同步和预览本地更改
无缝推广到生产环境

您的云，您掌控专为企业级 AI 构建

我们的 BYOC 方案将领先的推理基础设施带到您的云中，让您完全掌控您的 AI 工作负载。

部署在您自己的云上 - AWS、GCP、Azure 等

跨多云和多区域的高效资源调配

利用现有的云承诺和信用额度

通过 SOC II 认证，确保您的模型和数据保持安全

从模型，到 AI 系统

BentoML 是使用任何开源或自定义微调模型构建生产级 AI 系统最灵活的方式。我们负责基础设施，让您专注于创新。

01. 构建速度提升 10 倍

使用您的模型和代码创建推理 API、任务队列和多模型流水线。BentoML 的开源框架提供可定制的扩缩容、队列、批量处理和模型组合，以加速生产级 AI 系统的开发。

Llama

RAG

函数调用

LLM 结构化输出

ControlNet

@openai_endpoints(
   model_id=MODEL_ID,
   default_chat_completion_parameters=dict(stop=["<|eot_id|>"]),
)
@bentoml.service(
   name="bentovllm-llama3.1-405b-instruct-awq-service",
   traffic={
       "timeout": 1200,
       "concurrency": 256,  # Matches the default max_num_seqs in the VLLM engine
   },
   resources={
       "gpu": 4,
       "gpu_type": "nvidia-a100-80gb",
   },
)
class VLLM:
   def __init__(self) -> None:
       from transformers import AutoTokenizer
       from vllm import AsyncEngineArgs, AsyncLLMEngine
       ENGINE_ARGS = AsyncEngineArgs(
           model=MODEL_ID,
           max_model_len=MAX_TOKENS,
           enable_prefix_caching=True,
           tensor_parallel_size=4,
       )
       self.engine = AsyncLLMEngine.from_engine_args(ENGINE_ARGS)
       tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
       self.stop_token_ids = [
           tokenizer.eos_token_id,
           tokenizer.convert_tokens_to_ids("<|eot_id|>"),
       ]
   @bentoml.api
   async def generate(
       self,
       prompt: str = "Explain superconductors in plain English",
       system_prompt: Optional[str] = SYSTEM_PROMPT,
       max_tokens: Annotated[int, Ge(128), Le(MAX_TOKENS)] = MAX_TOKENS,
   ) -> AsyncGenerator[str, None]:
       from vllm import SamplingParams
       SAMPLING_PARAM = SamplingParams(
           max_tokens=max_tokens,
           stop_token_ids=self.stop_token_ids,
       )
       if system_prompt is None:
           system_prompt = SYSTEM_PROMPT
       prompt = PROMPT_TEMPLATE.format(user_prompt=prompt, system_prompt=system_prompt)
       stream = await self.engine.add_request(uuid.uuid4().hex, prompt, SAMPLING_PARAM)
       cursor = 0
       async for request_output in stream:
           text = request_output.outputs[0].text
           yield text[cursor:]
           cursor = len(text)

使用 BentoML 部署 LLM使用 BentoML 部署 LLM 阅读我们的文档阅读我们的文档

02. 自信地扩展

通过单个命令，无缝地从本地原型过渡到安全、可扩展的生产部署。

bentoml deploy .

🍱 Built bento "vllm:7ftwkpztah74bdwk"
✅ Pushed Bento "vllm:7ftwkpztah74bdwk"
✅ Created deployment "vllm:7ftwkpztah74bdwk" in cluster "gcp-us-central-1"
💻 View Dashboard: https://ss-org-1.cloud.bentoml.com/deployments/vllm-t1y6

03. 轻松构建 AI API

通过自动生成的 Web UI、Python 客户端和 REST API，简化对已部署 AI 应用的访问。通过基于 token 的授权，为客户端应用提供安全、受控的访问。

curl

python

curl -s -X POST \
    'https://bentovllm-llama3-1-405b-instruct-awq-service.mt-guc1.bentoml.ai/generate' \
    -H 'Content-Type: application/json' \
    -d '{
        "max_tokens": 4096,
        "prompt": "Explain superconductors in plain English",
        "system_prompt": "You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.\n\nIf a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don'"'"'t know the answer to a question, please don'"'"'t share false information."
    }'

助力生产级 AI 运维

利用 BentoML 优化的推理基础设施，赋能您的任务关键型 AI。

GPU 快速自动扩缩容，冷启动延迟极低

低延迟、高吞吐量的模型服务

智能资源管理，实现成本效益

实时监控和日志记录，确保部署可靠性

探索更多探索更多

开始免费试用

安排演示

客户评价

“BentoML 使我们的数据科学和工程团队能够独立工作，无需持续协调。这使我们能够以极高的效率构建和部署 AI 服务，同时赋予机器学习工程团队在需要时重构的灵活性。过去需要几天的工作，现在只需几小时。仅前四个月，我们就部署了 40 多个模型，现在生产环境中运行着 150 多个，这要归功于 BentoML 的标准化平台。”

Michael Misiewicz, 数据科学总监, Yext

“BentoML 的基础设施为我们提供了发布初期产品并进行扩展所需的平台，而无需招聘任何基础设施工程师。随着业务增长，scale-to-zero 和 BYOC 等功能为我们节省了大量资金。”

Patric Fulop, CTO, Neurolabs

“BentoML 正在帮助 Mission Lane 构建面向未来的机器学习部署基础设施。它使我们能够快速开发和测试模型评分服务，并将其无缝部署到我们的开发、预发布和生产 Kubernetes 集群中。”

Mike Kuhlen, 数据科学与机器学习解决方案和策略, Mission Lane

“BentoML 是一个出色的工具，可以节省资源并在生产环境中大规模运行 ML”

Woongkyu Lee, 数据和机器学习工程师, LINE

“Bento 为我们提供了构建自己的语音 AI 代理解决方案所需的工具和信心。我们很高兴与 Bento 合作。他们让我们的产品开发到生产的路径变得容易得多。”

Mark Brooker, CEO, MBit

最新动态

阅读我们的博客阅读我们的博客

使用 BentoML 部署 Phi-4-reasoning：分步指南

使用 BentoML 在云端部署和扩展 Phi-4-reasoning 的分步指南。

如何在 AI 推理中攻克 GPU CAP 定理

了解如何利用 BentoML 的统一计算架构解决 AI 推理中的 GPU CAP 定理，从而在本地和云环境中实现更好的控制、按需可用性和成本效率。

使用 BentoML 加速 Yext 的 AI 创新

了解 Yext 如何通过 BentoML 的统一推理平台将产品上市时间缩短 2 倍，并将计算成本降低 80%。

Kubernetes 上 LLM 冷启动速度提升 25 倍

了解我们如何通过对象存储、FUSE 挂载和基于流的模型加载，优化 Kubernetes 上 LLM 容器的冷启动。

减缓您 AI 进展的 6 个基础设施陷阱

发现 6 个减缓 AI 创新的常见 AI 基础设施陷阱。了解如何避免它们，并利用 BentoML 可扩展的推理平台加速您的 AI 之旅，从开发到生产。

DeepSeek 模型完整指南：从 V3 到 R1 及其他

了解 DeepSeek-V3、R1 和蒸馏模型的区别。学习如何选择合适的模型，并使用 BentoML 安全地部署它们。

使用 MLflow 和 BentoML 构建 ML 流水线

在本端到端 ML 流水线教程中，学习如何使用 MLflow 进行跟踪和 BentoML 进行部署，以连接 ML 实验与生产环境。

2024 年 AI 推理基础设施调查亮点

发现 AI 推理基础设施调查的关键洞察，重点介绍 250 多家实施 AI 解决方案的组织在模型采用、部署模式和基础设施挑战方面的见解。

加入我们的全球社区

每月超过 100 万次新增部署 5000+ 社区成员 200+ 开源贡献者

开始免费试用

安排演示

订阅我们的通讯

适用于任何模型、在任何云上的统一推理平台

深受全球富有远见的 AI 团队信赖

加速产品上市时间
面向您的业务关键型

LLM 端点,批量推理任务,自定义推理 API,语音 AI 代理,文档 AI,代理即服务,ComfyUI 流水线,多 LLM 网关,视频分析流水线,多模态搜索,RAG 应用,

开源服务引擎

性能

自动扩缩容

快速迭代

您的云，您掌控专为企业级 AI 构建

从模型，到 AI 系统

01. 构建速度提升 10 倍

02. 自信地扩展

03. 轻松构建 AI API

助力生产级 AI 运维

客户评价

最新动态

使用 BentoML 部署 Phi-4-reasoning：分步指南

如何在 AI 推理中攻克 GPU CAP 定理

使用 BentoML 加速 Yext 的 AI 创新

Kubernetes 上 LLM 冷启动速度提升 25 倍

减缓您 AI 进展的 6 个基础设施陷阱

DeepSeek 模型完整指南：从 V3 到 R1 及其他

使用 MLflow 和 BentoML 构建 ML 流水线

2024 年 AI 推理基础设施调查亮点

自由构建

产品

资源

公司

加入我们的社区

适用于任何模型、在任何云上的统一推理平台

深受全球富有远见的 AI 团队信赖

加速产品上市时间面向您的业务关键型

LLM 端点,批量推理任务,自定义推理 API,语音 AI 代理,文档 AI,代理即服务,ComfyUI 流水线,多 LLM 网关,视频分析流水线,多模态搜索,RAG 应用,

开源服务引擎

性能

自动扩缩容

快速迭代

您的云，您掌控 专为企业级 AI 构建

从模型，到 AI 系统

01. 构建速度提升 10 倍

02. 自信地扩展

03. 轻松构建 AI API

助力生产级 AI 运维

客户评价

最新动态

使用 BentoML 部署 Phi-4-reasoning：分步指南

如何在 AI 推理中攻克 GPU CAP 定理

使用 BentoML 加速 Yext 的 AI 创新

Kubernetes 上 LLM 冷启动速度提升 25 倍

减缓您 AI 进展的 6 个基础设施陷阱

DeepSeek 模型完整指南：从 V3 到 R1 及其他

使用 MLflow 和 BentoML 构建 ML 流水线

2024 年 AI 推理基础设施调查亮点

自由构建

产品

资源

公司

加入我们的社区

加速产品上市时间
面向您的业务关键型

您的云，您掌控专为企业级 AI 构建