适用于任何模型、在任何云上的统一推理平台

以无与伦比的速度和灵活性构建可扩展的 AI 系统。在您的云中部署,更快地迭代,并以更低的成本扩展。

深受全球富有远见的 AI 团队信赖

me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me
me

加速产品上市时间
面向您的业务关键型

me

开源服务引擎

  • 构建推理 API、任务队列和复合 AI 系统
  • 本地开发和调试
  • 开放生态系统,包含数百种集成
me

性能

  • 高吞吐量、低延迟的 LLM 推理
  • 根据您的需求平衡成本、速度和吞吐量
  • 充分利用您的 GPU 资源
me

自动扩缩容

  • 基于流量的自动水平扩缩容
  • 极快的冷启动
  • 多模型流水线的模块化扩缩容
me

快速迭代

  • 使用云端 GPU 进行构建和调试
  • 即时同步和预览本地更改
  • 无缝推广到生产环境

您的云,您掌控 专为企业级 AI 构建

我们的 BYOC 方案将领先的推理基础设施带到您的云中,让您完全掌控您的 AI 工作负载。

部署在您自己的云上 - AWS、GCP、Azure 等

跨多云和多区域的高效资源调配

利用现有的云承诺和信用额度

通过 SOC II 认证,确保您的模型和数据保持安全

从模型,到 AI 系统

BentoML 是使用任何开源或自定义微调模型构建生产级 AI 系统最灵活的方式。我们负责基础设施,让您专注于创新。

01. 构建速度提升 10 倍

使用您的模型和代码创建推理 API、任务队列和多模型流水线。BentoML 的开源框架提供可定制的扩缩容、队列、批量处理和模型组合,以加速生产级 AI 系统的开发。

Llama
RAG
函数调用
LLM 结构化输出
ControlNet
@openai_endpoints( model_id=MODEL_ID, default_chat_completion_parameters=dict(stop=["<|eot_id|>"]), ) @bentoml.service( name="bentovllm-llama3.1-405b-instruct-awq-service", traffic={ "timeout": 1200, "concurrency": 256, # Matches the default max_num_seqs in the VLLM engine }, resources={ "gpu": 4, "gpu_type": "nvidia-a100-80gb", }, ) class VLLM: def __init__(self) -> None: from transformers import AutoTokenizer from vllm import AsyncEngineArgs, AsyncLLMEngine ENGINE_ARGS = AsyncEngineArgs( model=MODEL_ID, max_model_len=MAX_TOKENS, enable_prefix_caching=True, tensor_parallel_size=4, ) self.engine = AsyncLLMEngine.from_engine_args(ENGINE_ARGS) tokenizer = AutoTokenizer.from_pretrained(MODEL_ID) self.stop_token_ids = [ tokenizer.eos_token_id, tokenizer.convert_tokens_to_ids("<|eot_id|>"), ] @bentoml.api async def generate( self, prompt: str = "Explain superconductors in plain English", system_prompt: Optional[str] = SYSTEM_PROMPT, max_tokens: Annotated[int, Ge(128), Le(MAX_TOKENS)] = MAX_TOKENS, ) -> AsyncGenerator[str, None]: from vllm import SamplingParams SAMPLING_PARAM = SamplingParams( max_tokens=max_tokens, stop_token_ids=self.stop_token_ids, ) if system_prompt is None: system_prompt = SYSTEM_PROMPT prompt = PROMPT_TEMPLATE.format(user_prompt=prompt, system_prompt=system_prompt) stream = await self.engine.add_request(uuid.uuid4().hex, prompt, SAMPLING_PARAM) cursor = 0 async for request_output in stream: text = request_output.outputs[0].text yield text[cursor:] cursor = len(text)

02. 自信地扩展

通过单个命令,无缝地从本地原型过渡到安全、可扩展的生产部署。

bentoml deploy . 🍱 Built bento "vllm:7ftwkpztah74bdwk" ✅ Pushed Bento "vllm:7ftwkpztah74bdwk" ✅ Created deployment "vllm:7ftwkpztah74bdwk" in cluster "gcp-us-central-1" 💻 View Dashboard: https://ss-org-1.cloud.bentoml.com/deployments/vllm-t1y6

03. 轻松构建 AI API

通过自动生成的 Web UI、Python 客户端和 REST API,简化对已部署 AI 应用的访问。通过基于 token 的授权,为客户端应用提供安全、受控的访问。

curl
python
curl -s -X POST \ 'https://bentovllm-llama3-1-405b-instruct-awq-service.mt-guc1.bentoml.ai/generate' \ -H 'Content-Type: application/json' \ -d '{ "max_tokens": 4096, "prompt": "Explain superconductors in plain English", "system_prompt": "You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.\n\nIf a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don'"'"'t know the answer to a question, please don'"'"'t share false information." }'

助力生产级 AI 运维

利用 BentoML 优化的推理基础设施,赋能您的任务关键型 AI。

GPU 快速自动扩缩容,冷启动延迟极低

低延迟、高吞吐量的模型服务

智能资源管理,实现成本效益

实时监控和日志记录,确保部署可靠性

客户评价

“BentoML 使我们的数据科学和工程团队能够独立工作,无需持续协调。这使我们能够以极高的效率构建和部署 AI 服务,同时赋予机器学习工程团队在需要时重构的灵活性。过去需要几天的工作,现在只需几小时。仅前四个月,我们就部署了 40 多个模型,现在生产环境中运行着 150 多个,这要归功于 BentoML 的标准化平台。”

Michael Misiewicz, 数据科学总监, Yext

“BentoML 的基础设施为我们提供了发布初期产品并进行扩展所需的平台,而无需招聘任何基础设施工程师。随着业务增长,scale-to-zero 和 BYOC 等功能为我们节省了大量资金。”

Patric Fulop, CTO, Neurolabs

“BentoML 正在帮助 Mission Lane 构建面向未来的机器学习部署基础设施。它使我们能够快速开发和测试模型评分服务,并将其无缝部署到我们的开发、预发布和生产 Kubernetes 集群中。”

Mike Kuhlen, 数据科学与机器学习解决方案和策略, Mission Lane

“BentoML 是一个出色的工具,可以节省资源并在生产环境中大规模运行 ML”

Woongkyu Lee, 数据和机器学习工程师, LINE

“Bento 为我们提供了构建自己的语音 AI 代理解决方案所需的工具和信心。我们很高兴与 Bento 合作。他们让我们的产品开发到生产的路径变得容易得多。”

Mark Brooker, CEO, MBit