指南目录/ API 接入

DeepSeek API 504 网关超时排查指南

504 这类错误最让人头疼的地方在于,它往往不是单点故障,而是整条请求链路里某个环节等得太久。真正要排查的是客户端、代理层、网关和上游模型之间,谁先撑不住。

先看结论

遇到 504、网关等待超时和代理超时链路时,怎么拆出真正的瓶颈位置。

适合谁看

适合正在接第三方模型 API、做兼容层、排线上报错的开发者和团队。

这篇会回答

先确认是上游慢,还是中间层等太短

长任务不要硬塞进同步返回链路

要统一整条链路的超时预算

DeepSeek API 504 网关超时排查指南 文章配图
1

先确认是上游慢,还是中间层等太短

很多团队一看到 504 就怪模型不稳定,但现实里更常见的情况是网关超时阈值过短,或者代理节点在等待阶段先断了连接。

因此第一步要把客户端超时、反向代理超时和上游响应耗时拆开看,不能只盯着应用日志里的一个错误码。

客户端 timeout 和网关 timeout 是否一致

代理节点是否有更短的 read timeout

上游模型是否在高峰期明显变慢

是否存在长请求和短请求共用一条队列的情况

2

长任务不要硬塞进同步返回链路

如果任务本身就需要几十秒以上,例如大文档总结、复杂 OCR 后处理或多轮工具调用,那继续坚持同步等待只会放大 504 风险。

更稳的方式是改成异步任务、轮询结果或回调通知,把长耗时任务从用户直连链路里拆出去。

3

要统一整条链路的超时预算

真正稳定的链路不是简单把每一层 timeout 都拉长,而是给每层明确预算,知道哪一层负责重试、哪一层负责断开。

否则你可能把前端等到超时、网关先关连接、后端却还在重试,结果用户看起来是失败,系统里却堆了一堆无效请求。

FAQ

常见问题

504 和 503 有什么区别?

503 更偏向服务暂时不可用或系统繁忙,504 更偏向请求链路里某个上游响应太慢,导致网关等待超时。

出现 504 后要不要直接重试?

要先看任务是否幂等。如果长任务本身已经在后台执行,前端再同步重试只会造成重复计算和更高拥塞。

Continue Reading

继续沿着这条主线看

这部分不再重新给你一堆大卡片,而是直接把下一步阅读顺序列出来,方便继续往下走。