跳转至

模型选择与测试策略

这页不讲 provider 参数怎么填,而是只回答两个问题:

  1. 左侧该用什么模型
  2. 右侧该怎么比较版本和模型

第一次使用,先按这个顺序来

  1. 左侧先选一个你熟悉、稳定的优化模型
  2. 右侧先选一个你真实会用的目标模型
  3. 先比较提示词版本,再比较模型差异

先记住 4 句话

  1. 左侧模型负责分析、优化和迭代,不负责证明结果真的好用
  2. 右侧模型负责真实执行,才是测试证据的来源
  3. 想比较提示词版本时,先尽量固定模型和输入
  4. 想比较模型差异时,先尽量固定提示词和输入

左侧优化模型怎么选

左侧模型的职责是:

  • 分析提示词结构
  • 生成优化稿
  • 继续迭代
  • 在文本工作区里承担评估用的分析任务

优先考虑:

  • 你最稳定、最熟悉的模型
  • 改写和推理能力相对可靠的模型
  • 成本和速度在你能接受的范围内

不必强求:

  • 一定和线上生产模型完全相同

因为左侧的核心任务是“帮你改提示词”,不是“模拟线上所有真实行为”。

右侧测试模型怎么选

右侧模型的职责是:

  • 真正执行提示词
  • 产出结果
  • 为结果评估和对比评估提供证据

如果你有明确的目标模型,右侧优先直接使用它。

例如:

  • 线上实际跑 gpt-4.1-mini,右侧就优先测它
  • 客户环境实际跑本地 qwen,右侧就优先测本地模型

如果你只想快速开始,看这 3 条就够了

  1. 左侧先别纠结,用一个稳定文本模型就行
  2. 右侧优先选你真正要上线或真正要用的模型
  3. 先固定模型比版本,再固定版本比模型

文本工作区里,先比版本还是先比模型

优先比较 版本

做法:

  • 固定右侧输入
  • 固定测试模型
  • 比较 原始 / 工作区 / vN

这样你看到的差异,主要来自提示词本身。

优先比较 模型

做法:

  • 固定同一条提示词
  • 固定同一份测试输入
  • 右侧切换不同模型

这样你看到的差异,主要来自模型理解能力和风格差异。

如果你同时改了:

  • 提示词版本
  • 测试模型

那右侧结果一旦变了,很难判断到底是谁造成的。

变量工作区和多消息工作区要额外注意什么

这两个工作区最容易把“输入变化”和“提示词变化”混在一起。

变量工作区

如果你在比较提示词版本,右侧变量值尽量保持一致。

否则你看到的结果变化,可能只是变量换了,不是提示词更好了。

多消息工作区

如果你在比较某一条消息的版本,整段会话上下文尽量保持一致。

否则你看到的差异,可能是上下文变了,不是当前选中的那条消息更好了。

图像工作区是双模型结构

图像工作区和文本工作区最大的不同是:左、右两边天然就是两套模型。

左侧

左侧仍然使用 文本模型,负责:

  • 分析图像提示词
  • 优化图像提示词
  • 继续迭代

右侧

右侧使用 图像模型,负责:

  • 真正生成图片
  • 比较不同版本提示词的出图差异
  • 比较不同图像模型的风格差异

图像工作区怎么测更有效

文生图

推荐顺序:

  1. 固定一个图像模型,比 原始 / 工作区 / vN
  2. 找到更靠谱的提示词版本
  3. 再固定这个版本,比较不同图像模型

图生图

除了固定提示词和模型,还要尽量固定输入图。

因为输入图一变,整个比较基线就变了。

浏览器版和桌面版怎么选

如果你主要连接的是:

  • 公开 HTTPS API

浏览器版通常够用。

如果你主要连接的是:

  • http://localhost
  • 局域网模型服务
  • 企业内网网关
  • 可能受 CORS 限制的自定义接口

优先使用桌面版更稳。

这条对文本模型和图像模型都成立。

一个最简单的起步策略

文本工作区

  • 左侧:选一个你熟悉的优化模型
  • 右侧:选一个你真实会用的目标模型
  • 先比较版本,再比较模型

图像工作区

  • 左侧:选一个稳定的文本模型
  • 右侧:先只选一个主图像模型
  • 先比较提示词版本,再比较不同图像模型

相关页面