大模型API限流怎么办?各平台QPS限制与解决方案
做大模型应用时,429 限流是最常见的稳定性杀手。各平台对 RPM(每分钟请求数)和 TPM(每分钟 token 数)都有配额限制,免费层尤其严格。本文用问答形式说明 OpenAI、Claude、Gemini、DeepSeek 的限流规则,并给出指数退避重试、令牌桶控速、多渠道容灾的完整 Python 实现,帮你构建抗限流的生产级调用链路。
常见问题
OpenAI API 的限流分两个维度:RPM(每分钟请求数)和 TPM(每分钟 token 数),具体配额随账户等级和模型不同。GPT-5.5 旗舰模型在 Tier 1 通常只有 500 RPM、30 万 TPM,升级到 Tier 5 可达 10000 RPM。Claude 的限流按 RPM 和 ITPM(输入 token/分钟)计算,Gemini 免费档仅 15 RPM。DeepSeek 官方对免费用户限流较严。
需要注意的是限流是按账户+模型维度计算,跨模型不共享。通过 EnlyAI 聚合平台调用时,平台会在多个上游渠道间做负载均衡,单渠道限流时自动切换,等效于把可用 RPM 放大数倍,是绕开单点限流的有效方式。
遇到 429 错误说明触发了限流,处理方式有四种:
- 指数退避重试:等待 1s、2s、4s… 递增后重试,避免雪崩;
- 限流队列:在客户端用令牌桶或漏桶算法控制发送速率,从源头避免超限;
- 多 Key 轮询:准备多个 API Key 轮流使用,分摊请求量;
- 切换渠道:通过 EnlyAI 这类聚合平台,单渠道限流时自动路由到备用渠道,无需自己维护多 Key。
生产环境建议组合使用:客户端做令牌桶控速 + 服务端做指数退避重试 + 聚合平台做多渠道容灾,三层防护基本能消除 429 对业务的影响。
提高 API 并发有三条路:
- 官方申请提额:OpenAI 按 Tier 升级,需累计消费达到门槛并绑定信用卡,Claude/Gemini 也有类似升级机制,但审批周期长;
- 多账户/多 Key 负载均衡:自己维护一组 Key 做轮询,但管理复杂且违反部分平台 ToS;
- 走聚合平台:EnlyAI 这类平台已整合多渠道,订阅用户享有更高并发配额,且单渠道满载时自动切换,等效于无限扩容。
此外技术上可用异步并发(Python 的 asyncio + aiohttp)提升单 Key 的吞吐,配合连接池复用减少握手开销,能在不提额的前提下把实际 QPS 提升 3-5 倍。
自动重试的核心是指数退避(exponential backoff):失败后等待时间按 2 的幂次递增,并加入随机抖动(jitter)避免多个客户端同步重试造成惊群。Python 可用 tenacity 库一行装饰器实现,也可手写 retry 循环。关键点:只对 429、500、502、503 等可重试错误重试,对 400、401 等参数/认证错误立即失败;设置最大重试次数(如 5 次)和总超时;读取响应头里的 Retry-After 字段按服务端要求等待。
# pip install openai tenacity
from openai import OpenAI
from tenacity import retry, stop_after_attempt, wait_exponential_jitter, retry_if_exception_type
client = OpenAI(api_key="sk-你的EnlyAI密钥", base_url="https://api.enlyai.com/v1")
# 指数退避:最多 5 次,初始 1s,上限 30s,带抖动
@retry(stop=stop_after_attempt(5),
wait=wait_exponential_jitter(initial=1, max=30),
retry=retry_if_exception_type(Exception))
def chat(prompt):
return client.chat.completions.create(
model="gpt-5.5",
messages=[{"role": "user", "content": prompt}]
)
resp = chat("用一句话解释限流")
print(resp.choices[0].message.content)
通过 EnlyAI 调用时,平台已在底层做了渠道级重试,客户端只需做轻量重试即可。
各平台限流对比
| 平台 | 限流维度 | 免费层参考 | 付费层参考 | 提额方式 |
|---|---|---|---|---|
| OpenAI | RPM + TPM | 500 RPM | 10000 RPM | 累计消费升 Tier |
| Claude | RPM + ITPM | 50 RPM | 4000 RPM | 充值升 Tier |
| Gemini | RPM + TPM | 15 RPM | 2000 RPM | 升级计费 |
| DeepSeek | RPM + TPM | 较严 | 按套餐 | 购买套餐 |
| EnlyAI | 多渠道负载 | 试用配额 | 高并发 | 订阅升级 |
提示:限流配额会随平台政策调整,生产前请以官方文档为准。聚合平台的多渠道容灾是应对突发流量的最稳方案。