推理大模型- FineBI帮助文档 FineBI帮助文档

文档创建者：Lily.Wang

历史版本：13

最近更新：April陶于 2025-11-05

1. 概述

推理大模型用于支撑 FineChatBI 的以下功能：数据解读、归因分析。

若资源有限，可以直接使用通用大模型，但效果打折。

2. 选用满足要求的推理大模型

推理模型可选用本地大模型或云上大模型。

2.1 推荐模型

免责声明：帆软仅提供大模型的推荐参考及对接方式，不对大模型本身的问题承担责任。

本地大模型部署：推荐使用vLLM；不推荐用 Ollama （存在 system prompt 丢失问题，影响模型响应准确性）。

本地大模型

类型	推荐模型	显卡要求（仅供参考，建议咨询大模型厂商）
本地大模型	DeepSeek-R1 满血版	16*H100
	DeepSeek-R1-0528	16*H100
	通义千问 3-235B-A22B-Thinking-2507（下载链接）	8*H100

云上大模型

类型	推理模型	费用评估
云上大模型	DeepSeek-R1/DeepSeek-R1-0528	token 费用 = (N x X + M x Y) x U x V N：用户每次查询平均消耗 input token 数，经验值 XXXX M：用户每次查询平均消耗 output token 数，经验值 XXXX X：大模型云服务 input token 收费标准，以实际为准，腾讯云价格（¥0.004 / 千Token，计费说明） Y：大模型云服务 output token 收费标准，以实际为准，腾讯云价格（¥0.016 / 千Token，计费说明） U：月活用户数 V：单用户平均月深度推理查询次数，经验值 5 // 归因分析+数据解读

类型

推理模型

费用评估

云上大模型

DeepSeek-R1/DeepSeek-R1-0528

token 费用 = (N x X + M x Y) x U x V

N：用户每次查询平均消耗 input token 数，经验值 XXXX
M：用户每次查询平均消耗 output token 数，经验值 XXXX
X：大模型云服务 input token 收费标准，以实际为准，腾讯云价格（¥0.004 / 千Token，计费说明）
Y：大模型云服务 output token 收费标准，以实际为准，腾讯云价格（¥0.016 / 千Token，计费说明）
U：月活用户数
V：单用户平均月深度推理查询次数，经验值 5 // 归因分析+数据解读

2.2 大模型能力检查

FineChatBI 要求大模型必须严格按照指定格式输出结果，否则无法正常使用。

用户在连接本地大模型前，需要提前验证模型是否满足 FineChatBI 的要求，详情请参见：判断大模型是否满足 FineChatBI 能力要求。

2.3 大模型接口兼容性检查

本地大模型需检查接口兼容，云上大模型可跳过此步骤。

用户需要确认自己的本地大模型是否兼容 OpenAI 接口：

情况一：兼容 OpenAI 接口

大模型兼容 OpenAI 接口，则无需任何改造，大模型可以直接连接 FineAI 服务。

情况二：不兼容 OpenAI 接口

大模型若不兼容 OpenAI 接口，推荐使用 vLLM 框架将本地大模型重新部署为兼容 OpenAI 接口的服务，详情请参考 vLLM 官方文档。

情况三：不兼容 OpenAI 接口且无法重新部署大模型

接口改造。常驻一个接口转发服务，作为 FineAI 服务和大模型服务之间沟通的桥梁。

接口转发服务需要将 FineAI 的请求体转换成大模型服务支持的格式，发给大模型；并解析大模型的返回，转换成 FineAI 的返回体格式。

FineAI 的请求体和返回体都符合 OpenAI Chat 接口规范，详情见：

点击展开更多

请求 URL 规范

大模型的请求 URL 需要以 /chat/completions 结尾。

请求体规范

请求体需要包含以下参数：

参数	说明
model	即问答 BI 配置界面的部署名
messages	对话历史记录，包括角色和历史。类型为 List[dict(str,str)]
temperature	调节模型输出结果的随机性，值越大随机性越强
max_tokens	控制生成输出 token 的数量
stream	是否流式输出，bool 类型。必须将 FineAI 发送的 stream 传递给大模型；必须根据 stream 的值判断返回体格式是否为流式格式。

请求体示例：

{
    "model": "gpt-3.5-turbo",
    "messages": [
        {
            "role": "system",
            "content": "你是算术专家"
        },
        {
            "role": "user",
            "content": "圆周率怎么计算"
        }
    ],
    "temperature": 0.95,
    "max_tokens": 8192,
    "stream": false
}

返回体规范

>当 FineAI 请求体中 stream 为 false 时，返回非流式返回体。

非流式返回体示例：

{
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "圆周率的计算方式有以下几种……"
      },
      "finish_reason": "stop"
    }
  ]
}

>当 FineAI 请求体中 stream 为 true 时，返回流式返回体。

提示:

流式返回体必须遵循 SSE 标准。
除JSON结构符合下述要求之外，每个返回体必须以「data:」开头，以两个回车符结尾，返回体 header 设置「Content-Type: text/event-stream」。详情见 SSE 标准。

流式返回体JSON部分示例：

生成过程中：每个 token 通过 content 返回，且 finish_reason 为 null
流式返回结束：返回了最后一个 token 后，须要有一个额外的返回体，其中 content 为 null，而 finish_reason 为 "stop"

{
    "choices": [
        {
            "finish_reason": null,
            "delta": {
                "content": "好的"
            }
        }
    ]
}

3. 配置白名单

为确保 FineBI/FineAI 能访问到大模型，需要将大模型地址添加至 FineBI/FineAI 服务器的白名单中。

4. FineChatBI 配置推理大模型

4.1 连接本地大模型

进入「智能问答配置>其他配置」，打开大模型，如下图所示：

配置本地推理模型信息，再点击保存。如下图所示：

填写项	描述
ApiKey	用于身份验证的唯一字符串，通常由服务提供商生成（若接口不需要鉴权，可不填写）
endPoint	大模型的具体的服务地址，可以通过该地址与模型进行交互填入基础URL，即不包含 /chat/completions 后缀
部署模型名称	填入要接入模型的模型名（model name）

填写项

描述

ApiKey

用于身份验证的唯一字符串，通常由服务提供商生成

（若接口不需要鉴权，可不填写）

endPoint

大模型的具体的服务地址，可以通过该地址与模型进行交互

填入基础URL，即不包含 /chat/completions 后缀

部署模型名称

填入要接入模型的模型名（model name）

4.2 连接云上大模型

1）开放 FineAI 和 FineBI 服务器对外访问权限，将大模型服务的地址添加到FineBI 和 FineAI 服务器的白名单中。

2）进入「智能问答配置>其他配置」，打开大模型。输入云上推理大模型服务的相关信息。如下图所示：

配置项	描述
服务商名称	deepseek（ OpenAI 接口规范的大模型）
ApiKey	用于身份验证的唯一字符串，通常由服务提供商生成（若接口不需要鉴权，可不填写）
endpoint	大模型的具体的服务地址，可以通过该地址与模型进行交互
部署模型名称	填入要接入模型的模型名（model name）

上一篇：通用大模型

下一篇：数据管理简介

有帮助
没帮助
只是浏览

中文（繁體） English 日本語

中文（简体）

推理大模型

1. 概述

2. 选用满足要求的推理大模型

2.1 推荐模型

2.2 大模型能力检查

2.3 大模型接口兼容性检查

请求 URL 规范

请求体规范

3. 配置白名单

4. FineChatBI 配置推理大模型

4.1 连接本地大模型

4.2 连接云上大模型

附件列表