核心概念

理解以下概念，有助于控制成本、避免超长报错，并正确对接 HTTP API 与 OpenAI SDK。

Token 与 usage

Token 是模型处理文本的基本单位，可粗略理解为「字 / 词」的切分片段。不同模型分词方式不同，中文、英文、数字、符号 的 token 数未必与字符数 1:1 对应。

每次成功的 Chat Completions 响应（非流式）通常包含 usage 字段，例如：

"usage": {
  "prompt_tokens": 100,
  "completion_tokens": 200,
  "total_tokens": 300
}

流式调用结束后，也可能在最后一个 chunk 或汇总接口中提供 usage，以实际返回为准。

上下文窗口 指单次请求中，模型能处理的 最大 token 总量（通常包括用户输入、历史多轮、模型输出；部分推理模型还包含中间推理 token）。

若对话过长：

建议：

模型 ID 是 API 中 model 字段的字符串，是调用时的唯一标识。

详见工具接入概览与控制台 模型广场。

二者不可混用。Key 泄露风险高，须妥善保管。

调用前账户需有足够余额（预付费模式）。扣费一般发生在请求成功并完成计量之后；余额不足时返回 402 / INSUFFICIENT_BALANCE。见计费与财务。

海宇数科 统一网关 对上游多厂商做路由与计量：您面对的是一个 Base URL 与一套 Key 体系，底层模型由平台调度至对应供应商。因此文档与控制台以 海宇模型 ID 为准，而非各厂商原站产品名。