模型选择与测试策略¶
这页不讲 provider 参数怎么填,而是只回答两个问题:
- 左侧该用什么模型
- 右侧该怎么比较版本和模型
第一次使用,先按这个顺序来¶
- 左侧先选一个你熟悉、稳定的优化模型
- 右侧先选一个你真实会用的目标模型
- 先比较提示词版本,再比较模型差异
先记住 4 句话¶
- 左侧模型负责分析、优化和迭代,不负责证明结果真的好用
- 右侧模型负责真实执行,才是测试证据的来源
- 想比较提示词版本时,先尽量固定模型和输入
- 想比较模型差异时,先尽量固定提示词和输入
左侧优化模型怎么选¶
左侧模型的职责是:
- 分析提示词结构
- 生成优化稿
- 继续迭代
- 在文本工作区里承担评估用的分析任务
优先考虑:
- 你最稳定、最熟悉的模型
- 改写和推理能力相对可靠的模型
- 成本和速度在你能接受的范围内
不必强求:
- 一定和线上生产模型完全相同
因为左侧的核心任务是“帮你改提示词”,不是“模拟线上所有真实行为”。
右侧测试模型怎么选¶
右侧模型的职责是:
- 真正执行提示词
- 产出结果
- 为结果评估和对比评估提供证据
如果你有明确的目标模型,右侧优先直接使用它。
例如:
- 线上实际跑
gpt-4.1-mini,右侧就优先测它 - 客户环境实际跑本地
qwen,右侧就优先测本地模型
如果你只想快速开始,看这 3 条就够了¶
- 左侧先别纠结,用一个稳定文本模型就行
- 右侧优先选你真正要上线或真正要用的模型
- 先固定模型比版本,再固定版本比模型
文本工作区里,先比版本还是先比模型¶
优先比较 版本。
做法:
- 固定右侧输入
- 固定测试模型
- 比较
原始 / 工作区 / vN
这样你看到的差异,主要来自提示词本身。
优先比较 模型。
做法:
- 固定同一条提示词
- 固定同一份测试输入
- 右侧切换不同模型
这样你看到的差异,主要来自模型理解能力和风格差异。
如果你同时改了:
- 提示词版本
- 测试模型
那右侧结果一旦变了,很难判断到底是谁造成的。
变量工作区和多消息工作区要额外注意什么¶
这两个工作区最容易把“输入变化”和“提示词变化”混在一起。
变量工作区¶
如果你在比较提示词版本,右侧变量值尽量保持一致。
否则你看到的结果变化,可能只是变量换了,不是提示词更好了。
多消息工作区¶
如果你在比较某一条消息的版本,整段会话上下文尽量保持一致。
否则你看到的差异,可能是上下文变了,不是当前选中的那条消息更好了。
图像工作区是双模型结构¶
图像工作区和文本工作区最大的不同是:左、右两边天然就是两套模型。
左侧¶
左侧仍然使用 文本模型,负责:
- 分析图像提示词
- 优化图像提示词
- 继续迭代
右侧¶
右侧使用 图像模型,负责:
- 真正生成图片
- 比较不同版本提示词的出图差异
- 比较不同图像模型的风格差异
图像工作区怎么测更有效¶
文生图¶
推荐顺序:
- 固定一个图像模型,比
原始 / 工作区 / vN - 找到更靠谱的提示词版本
- 再固定这个版本,比较不同图像模型
图生图¶
除了固定提示词和模型,还要尽量固定输入图。
因为输入图一变,整个比较基线就变了。
浏览器版和桌面版怎么选¶
如果你主要连接的是:
- 公开 HTTPS API
浏览器版通常够用。
如果你主要连接的是:
http://localhost- 局域网模型服务
- 企业内网网关
- 可能受 CORS 限制的自定义接口
优先使用桌面版更稳。
这条对文本模型和图像模型都成立。
一个最简单的起步策略¶
文本工作区¶
- 左侧:选一个你熟悉的优化模型
- 右侧:选一个你真实会用的目标模型
- 先比较版本,再比较模型
图像工作区¶
- 左侧:选一个稳定的文本模型
- 右侧:先只选一个主图像模型
- 先比较提示词版本,再比较不同图像模型