import openai
# 统一入口,无缝切换模型
client = openai.OpenAI(
base_url="https://api.51domino.com/v1",
api_key="your-key"
)
response = client.chat.completions.create(
model="qwen2.5-72b", # 或 deepseek, llama...
messages=[{"role": "user",
"content": "你好"}]
)
print(response.choices[0].message.content)
💡 兼容OpenAI API格式,现有代码零修改接入
核心功能
企业级API管理的完整方案
🤖
多模型聚合
Qwen、DeepSeek、Llama、GLM等主流模型统一接入,一个API Key调用全部。
⚖️
智能负载均衡
自动分配请求到最优节点,故障自动切换,保证高可用。
📊
用量监控
实时Token用量统计、请求计数、延迟监控,数据一目了然。
🔐
权限管控
按部门/用户分配API Key,设置配额上限,精细化权限管理。
🔄
无缝切换
兼容OpenAI API格式,现有应用零代码修改,直接切换后端。
📈
弹性扩展
支持vLLM / Ollama / TensorRT-LLM,按需扩缩容,资源不浪费。
支持的推理引擎
🦙
Ollama
轻量部署
🚀
vLLM
高吞吐推理
⚡
TensorRT-LLM
NVIDIA加速
🤗
TGI
HuggingFace
应用场景
🏢
企业AI中台
统一管理企业内部所有AI模型调用,按部门计费,资源可视化。
👨💻
开发团队
一个endpoint接入所有模型,开发测试无缝切换,降低成本。
🏗️
SaaS集成
为SaaS产品提供统一AI能力层,用户无需关心底层模型。