模型选择与测试策略¶

这页不讲 provider 参数怎么填，而是只回答两个问题：

左侧该用什么模型
右侧该怎么比较版本和模型

第一次使用，先按这个顺序来¶

左侧先选一个你熟悉、稳定的优化模型
右侧先选一个你真实会用的目标模型
先比较提示词版本，再比较模型差异

先记住 4 句话¶

左侧模型负责分析、优化和迭代，不负责证明结果真的好用
右侧模型负责真实执行，才是测试证据的来源
想比较提示词版本时，先尽量固定模型和输入
想比较模型差异时，先尽量固定提示词和输入

左侧优化模型怎么选¶

左侧模型的职责是：

分析提示词结构
生成优化稿
继续迭代
在文本工作区里承担评估用的分析任务

优先考虑：

你最稳定、最熟悉的模型
改写和推理能力相对可靠的模型
成本和速度在你能接受的范围内

不必强求：

一定和线上生产模型完全相同

因为左侧的核心任务是“帮你改提示词”，不是“模拟线上所有真实行为”。

右侧测试模型怎么选¶

右侧模型的职责是：

真正执行提示词
产出结果
为结果评估和对比评估提供证据

如果你有明确的目标模型，右侧优先直接使用它。

例如：

线上实际跑 gpt-4.1-mini，右侧就优先测它
客户环境实际跑本地 qwen，右侧就优先测本地模型

如果你只想快速开始，看这 3 条就够了¶

左侧先别纠结，用一个稳定文本模型就行
右侧优先选你真正要上线或真正要用的模型
先固定模型比版本，再固定版本比模型

文本工作区里，先比版本还是先比模型¶

优先比较版本。

做法：

固定右侧输入
固定测试模型
比较 原始 / 工作区 / vN

这样你看到的差异，主要来自提示词本身。

优先比较模型。

做法：

固定同一条提示词
固定同一份测试输入
右侧切换不同模型

这样你看到的差异，主要来自模型理解能力和风格差异。

如果你同时改了：

提示词版本
测试模型

那右侧结果一旦变了，很难判断到底是谁造成的。

变量工作区和多消息工作区要额外注意什么¶

这两个工作区最容易把“输入变化”和“提示词变化”混在一起。

变量工作区¶

如果你在比较提示词版本，右侧变量值尽量保持一致。

否则你看到的结果变化，可能只是变量换了，不是提示词更好了。

多消息工作区¶

如果你在比较某一条消息的版本，整段会话上下文尽量保持一致。

否则你看到的差异，可能是上下文变了，不是当前选中的那条消息更好了。

图像工作区是双模型结构¶

图像工作区和文本工作区最大的不同是：左、右两边天然就是两套模型。

左侧¶

左侧仍然使用 文本模型，负责：

分析图像提示词
优化图像提示词
继续迭代

右侧¶

右侧使用 图像模型，负责：

真正生成图片
比较不同版本提示词的出图差异
比较不同图像模型的风格差异

图像工作区怎么测更有效¶

文生图¶

推荐顺序：

固定一个图像模型，比 原始 / 工作区 / vN
找到更靠谱的提示词版本
再固定这个版本，比较不同图像模型

图生图¶

除了固定提示词和模型，还要尽量固定输入图。

因为输入图一变，整个比较基线就变了。

浏览器版和桌面版怎么选¶

如果你主要连接的是：

公开 HTTPS API

浏览器版通常够用。