推荐大模型- Dora 平台

文档创建者：Aria.Han

历史版本：20

最近更新：Aria.Han 于 2026-06-26

1. 简介

Data Agent 支持连接符合 OpenAI/Azure 接口规范的本地大模型以及云上大模型。

免责申明：帆软仅提供大模型的推荐参考及对接方式，不对大模型本身的问题承担责任。

2. 模型要求

2.1 参数要求

必须支持 tool_call。
模型尺寸：优先满血版，最低需满足 235B 总参数量。
大模型上下文长度要求：需支持 ≥128k tokens 上下文窗口。

大模型参数科普

大模型参数分为「总参数」与「激活参数」，本文所提及 235B 即为总参数。

参数区分	总参数	激活参数
定义	模型文件中存储的所有权重矩阵的总和	处理每一个 Token 时，实际参与矩阵乘法运算的参数数量
意义	代表模型的知识容量上限。总参数越大，理论上能存储的信息和模式越多	决定推理速度、延迟和单次计算成本的关键指标。激活参数越低，推理越快，单位时间处理的 Token 越多

模型示例对比

模型名称	总参数	激活参数	激活/总比	解读
DeepSeek-V4-Pro (满血版)	1.6 万亿 (1.6T)	490 亿 (49B)	≈3%	拥有业界顶尖的知识储备，但由于每次只激活 49B 参数，推理成本远低于 1.6T 的 Dense 模型。适合处理复杂逻辑推理和长文本知识检索。
Qwen3-235B-A22B	2350 亿 (235B)	220 亿 (22B)	≈9.4%	总参数中等偏上，但激活参数极低，意味着它的推理速度极快，显存占用相对友好，性价比极高，适合高频 API 调用和高并发场景。

2.2 并发性能

大模型每分钟处理可处理的 Token 吞吐量（TPM）要求：需保证 TPM ≥20w tokens。
单并发推荐：每分钟输入 Token 约 20w，输出 1~2k
单步消耗：20k~30k Token，每分钟可执行 5~7 步
并发数计算公式（以 qwen3.6-plus 为例）

简单问题：TPM/20w
复杂问题：TPM/50w

注：TPM 为理论上限，实际使用会略低。

3. 推荐模型

以下模型表现较好，建议优先使用满血版（完整参数版本）：

1）kimi-k2.6（开源，推荐满血版）

2）glm-5.1（开源，可私有化部署，推荐满血版）

3）MiniMax-M2.5（开源，可私有化部署，推荐满血版）

4）deepseekV4pro（开源，可私有化部署，推荐满血版）

5）qwen3.6-plus、qwen3.7-plus（闭源，百炼私有云部署）

6）qwen3.7-max（闭源，百炼私有云部署）

7）MiniMax-M3（闭源）

8）deepseek-v4-flash：总参数 2840亿（284B）、激活参数 130亿（13B）

注：大模型的配置与定价可参考文档：模型资源配置。

4. 不推荐模型

qwen3.5 系列，模型存在已知严重 BUG

典型问题：高频出现 dataquery.execute（数据查询服务）无法正常工作、ai server error 等报错，导致数据查询流程中断，无法从数据库获取有效数据。
相关讨论：

deepseek-v3、deepseek-v3.1
其他总参数量低于 235B 的小模型

5. 场景选择

1）准确性优先场景

适用场景	推荐模型	注意
财务报表查询合规数据核对报告分析生成关键业务决策支持	qwen3-max-preview（优先满血版）	不适合对实时性要求极高的场景

2）速度与稳定性优先场景

适用场景	推荐模型	注意
高频数据查询大批量并发调用	qwen3.6-plus（优先满血版）	不适合复杂金融查询场景

3）日常轻量查询场景

适用场景	推荐模型	注意
简单数据检索日常报表查看非关键业务查询	qwen3-max-preview（优先满血版）	不适合复杂数据查询、报告分析场景

4）成本敏感场景

适用场景	推荐模型	注意
预算有限对准确性要求适中	deepseekV3.2 MiniMax M2.5	稳定性和效果呈现较为一般

已经是第一篇

已经是最后一篇

有帮助
没帮助
只是浏览
评价文档，奖励 1 ~ 100 随机 F 豆！

推荐大模型