“语言模型即服务”（LMaaS）范式下，强大的专有语言模型只能通过受限接口访问，与开源模型不同，它在评估等方面存在挑战，本文旨在阐述这些挑战对其可及性等四方面的阻碍、分析现有解决方案并提建议、指明未来方向，同时对其接口许可和功能进行综合的概述。

mindMap

研究背景

题外话：LMaaS是什么

由于商业原因和昂贵的调优成本，GPT-3等预训练的大型语言模型（LLM）通常作为服务发布，而不是开源模型权重。我们将此场景称为“Language-Model-as-a-Service（LMaaS）”（该术语最初用于一篇ICML’2022论文）。在这样的场景中，用户可以通过他们的推理API访问强大的LLM。

LLM的服务为许多用例提供了动力（参见GPT-3 Demo）。与微调相比，LMaaS允许单个通用LLM服务于许多不同的任务，因此非常deployment-efficient。尽管如此，如何在不访问其参数和梯度的情况下使LLM适应目标任务是一个挑战。为了使LLM受益于更广泛的受众，我们收集适合此场景的论文以促进未来的研究。

大模型服务的两种范式

优势

Compared with fine-tuning task-specific LLMs, LMaaS has the following advantages:
与微调特定任务的LLM相比，LMaaS具有以下优点：

Deployment-efficient. LMaaS部署一个通用LLM来服务于各种任务。可以使用特定于任务的提示、一小部分参数或功能来调整LLM来执行目标任务。无需为每个任务维护整个模型的副本。
Tuning-efficient. 优化效率。当有少量特定于任务的参数需要调整时（例如，黑盒优化），优化可以非常高效，因为它不需要反向传播，其中计算复杂度与模型大小成正比，因此对于LLM来说可能是昂贵的甚至不可行的。相比之下，LMaaS中的优化复杂度与模型大小无关。
Sample-efficient. 采样效率。已经证明，LLM可以在有限甚至零标记数据的情况下在广泛的任务上实现具有竞争力的性能。LMaaS中的大多数工作也专注于少镜头或零镜头设置。

贡献点

与全模型访问的场景不同（如开源模型），这种封闭式语言模型为评估、基准测试和测试它们提出了特定的挑战。本文有两个目标：

一方面，我们描述了上述挑战如何阻碍LMaaS的可访问性、可复制性、可靠性和可信性。
另一方面，本文为当前主要的 “语言模型即服务” 的现有知识提供了全面的资源，对其接口提供的许可和功能进行了综合概述。

LMaaS的总体挑战

可访问性：
- 通常可通过应用程序编程接口（API）或网络界面进行访问。要使用它们，必须接受并订阅商业许可证，该许可证授予公司收集和使用prompt以改进其模型的权利。
- 此外，LMaaS 的访问成本通常与潜在用户的社会经济因素不一致，可能导致某些人口层面处于不利地位。
可复制性：
- 语言模型即服务（LMaaS）以持续交付/部署的方式进行部署和更新，旧模型经常被新模型取代并完全折旧。在几乎没有事先通知的情况下。这破坏了可重复性，因为人们无法评估已撤回的模型或比较不同版本。
- 语言模型即服务的内在非确定性以及服务提供商提供的有限配置选项进一步限制了可复制性。
可靠性：对LLM的基准测试是我们确保模型可靠的方式。对任何语言模型进行基准测试都会产生巨大的计算和人力成本，并且执行起来并非易事，但对于语言模型即服务而言，与用户控制的语言模型相比，会出现额外的挑战
- 例如数据污染和用户污染（即很难设计出已经被模型消化过的样本和分布外测试集，即由于公司会利用用户数据训练，这可能导致模型记住来自用户的测试样本）
- 评估涌现（即确定语言模型和语言模型即服务某些据称是涌现能力的起源）。涌现能力指的是模型在达到一定规模或复杂度时，展现出的在训练过程中未明确编程或预期的能力。然而，由于无法访问训练数据，人们难以判断这些能力是否真的是涌现的，也难以确定模型在训练过程中是否接触过类似任务的数据。
可信性：忠诚和稳定性应体现在语言模型即服务（LMaaS）和可解释性工具中。

LMaaS范式

Accessibly

许可证（开源协议）

许可证类型差异
- LMs 许可证：
  - 开源许可证（如 MIT、Apache-2.0）允许用户自由使用、修改和分发模型（如 GPT-2、BERT）。
  - 开放权重（如 LLaMA）需申请访问，但限制二次训练和商业用途。
  - 专用许可证（如 OpenRAIL）允许免费使用，但需标注来源并限制有害用途（如 BLOOM）。
- LMaaS 许可证：
  - 基本上均为商业许可证，闭源且不可本地部署，需付费订阅（如 ChatGPT、Bard）。
控制权与可访问性
- LMs：用户拥有完全控制权，可本地运行、修改和定制（如 Alpaca-7B）。
- LMaaS：第三方控制模型，用户仅能通过 API 或网页交互，无法修改内部逻辑。
语言不平等问题
- LMaaS 的按使用付费模式（如按 token 收费）导致低资源语言用户成本更高（如某些语言 token 成本是英语的 15 倍）。
- 闭源特性限制了低资源语言的本地化适配（如分词工具优化不足）。
典型案例对比
- LMs：BLOOM（多语言支持）通过 OpenRAIL 许可证促进研究；LLaMA 因 “可用权重” 限制（不得用于训练其他模型）引发争议。
- LMaaS：商业服务（如 ChatGPT）通过闭源和数据收集策略强化技术垄断。
  可访问性挑战
费用模式
- LMaaS 多采用订阅制或按 token 收费，导致发展中国家用户难以负担。
- 低资源语言（如东南亚语言）因 token 化效率低，实际使用成本可达英语的 15 倍（如泰语需更多 token 表示相同内容）。
语言不平等
- 分词算法对复杂语言（如阿拉伯语、中文）支持不足，导致更高的计算成本。
- 统一的 token 定价策略（如 $0.002/1k tokens）使低资源语言用户承受不成比例的经济负担。

Replicability

相同数据和相同算法需要得到相同结果

LMaaS版本升级

持续交付模式：LMaaS 采用类似 SaaS 的持续更新，新模型无缝替换旧版本（如 ChatGPT 每月更新），导致旧版本无法访问。
- 当一个公司弃用一个模型时，评估和信任一个实验的有效性只取决于历史数据和研究界对标杆技术可靠性达成的共识
- 随着LMaaS的变化，下游服务的质量也将发生变化。

非确定性

即使设置temperature=0，某些 LMaaS（如 GPT-3.5/4）仍表现出非确定性（如稀疏专家混合架构导致的随机路由）。
- 对于大于0的值，LMaaS根据概率分布对输出进行采样，但从分布中采样的样本可能是不同的。
- 只有固定了所有的随机性来源(非正式地,他们的种子)，才允许使用该模型进行控制、复制和信任实验
同一模型的接口可能不同（如web和api）

Reliability

在LMs和LMaaS的背景下，可靠性包含了可以通过度量来量化性能的模型。这些指标应该反映模型完成任务的熟练程度，而不仅仅是对训练数据的记忆和对表面模式的依赖

数据污染和用户污染

1. 数据污染（Data contamination）

定义：训练数据包含与测试集相同或高度相似的输入 - 标签对，导致模型通过记忆而非真实能力通过测试。
成因：
- 流行测试数据集（如 SST-2、GLUE）常被公开分享，可能被模型训练数据抓取。
- 网络上存在大量类似任务数据（如数学题、阅读理解材料），模型可能通过预训练接触到相似内容。
- 因果链条：
  - LMs 需要海量数据 → 2. 依赖网络爬虫 → 3. 抓取公开测试集 → 4. 测试床污染。
案例：
数学题数据集 GSM8K 被 LLaMA 训练数据包含，导致模型在该测试集上准确率虚高。
影响：
- 高估模型真实能力（如 GPT-4 在 MIT 入学考试中的表现被质疑因数据污染）。
- 隐私泄露风险（模型可能输出训练数据中的敏感信息）。
解决方案：
- 开发快速检测工具，识别测试样本是否存在于训练数据中。
  - 但是，开销较大，而且一个不成功的结果并不能证明一个模型没有该数据集（不能反证）
- 使用非文本数据（如压缩）
  - 但是，部分auto工具具备解压缩能力
- 建立数据集注册库，记录已被污染的测试集。通过向量数据库加速搜索模型训练数据中的相似句子。
  - 研究人员无需直接访问完整训练数据，即可核查给定模型的训练集中是否包含特定测试样本，并在评估时排除这些样本
  - 开发者可通过注册库核查训练数据是否包含测试集，并动态过滤用户输入中的测试样本，避免其进入后续训练。

2. 用户污染（User contamination）

定义：LMaaS 收集用户提示（prompts）用于模型训练或微调，导致测试样本被模型 “记忆”，影响后续评估。
成因：
- 商业 LMaaS 通常默认收集用户输入（如 OpenAI API 默认使用数据训练模型）。
- 用户可能在不知情的情况下将测试数据输入 LMaaS。
影响：
- 测试样本被模型学习后，后续评估无法真实反映模型能力。
- 形成 “污染闭环”：用户评估→数据收集→模型更新→污染新测试。
解决方案：
- 提供 “数据隔离模式”，允许用户选择不参与数据收集（如 Anthropic 的 Claude 支持 opt-out）。
- 对测试数据进行模糊化处理，降低被模型记忆的概率。

涌现行为

涌现行为（emergent behaviour）指 LMaaS 解决训练中未接触过的新任务的能力。
- 例如：GPT-4 首次解决数学证明题或复杂逻辑推理任务。
- 例如，如果一个模型在训练过程中只看到了情感分析数据，我们认为它解决数学问题的能力是涌现的。

评估挑战

任务新颖性判定：需先确定任务是否为模型未见过的真正新挑战。
- 例如：判断一个数学题是否被包含在训练数据中（可能通过网络公开资源）。
非确定性干扰：模型输出的随机性可能掩盖真实能力（如温度参数影响）。
涌现能力的争议性
现有研究尚未明确证实 LMaaS 真正具备涌现能力（即解决训练中未接触过的全新任务的能力）。
- 部分任务中，模型表现与规模负相关，但与训练数据中相似提示的存在概率正相关
一些声音
- 所谓的 “涌现能力” 可能是评估指标设计缺陷的结果
- 模型擅长任务可能仅反映预训练接触过类似任务，而非真正的泛化能力
- 链式思维（CoT）提示即使存在逻辑错误，仍能显著提升模型表现（Schaeffer 等，2023b），说明提示方法可能掩盖模型真实能力。

模型比较

一个模型在一个任务上可能更好，而在另一个任务上可能会有所欠缺；因此，很难想象对LMaaS性能加上全部的性能度量。

基准测试的二分法

全面评估派——通过大量模型和场景进行逐点指标评估：主张通过多数据集和多指标（如准确率、F1 值）综合衡量。
- 优势：覆盖模型多方面表现。
- 局限：可能忽略模型处理未知任务的潜力。忽略任务间的内在相似性（如逻辑推理类任务与常识问答类任务的差异）。
元能力评估派——基于潜在因素对模型进行后验聚合评估：倡导评估模型处理类似任务的能力（如通过迁移学习表现）。通过统计模型（如因子分析）提取任务间的潜在共性特征（如推理复杂度、数据类型等），将任务按这些特征分组后，再评估模型在每组任务上的综合表现。
- 优势：更贴近真实场景需求。
- 局限：
  - 若潜在因素由模型表现驱动（而非任务本质），可能导致虚假相关性（例如：两个任务因模型均表现差而被错误归为同类，尽管任务本身无关）

trustworthiness

可解释性问题：LMaaS 与自解释模型不同，它属于解释性神经网络，其生成的解释本质上只是基于之前交互的条件提示，无法深入洞察模型决策过程，且这种解释缺乏可信度。
- 例如，像决策树这类自解释模型，能从其决策分支中提取可理解规则，而 LMaaS 无法做到。
现有技术的局限性：尽管思维链（CoT）等提示技术能提升 LMaaS 性能和可解释性，但模型性能提升可能源于自身复杂性增加，且这些提示技术无法保证模型生成的推理可靠，即使提示逻辑不正确也可能提高性能。
解释的理想特性与现状：解释的明确性、忠实性和稳定性是三个重要特性。LMaaS 能实现解释的明确性（解释的清晰程度和可理解性，即解释是否能用自然语言或直观的形式呈现，让用户无需专业知识即可理解模型的决策逻辑），但在忠实性（输入变量对模型决策的相关性）和稳定性（输入稍有变化时解释的一致性）方面表现不佳，虽有研究朝此方向努力，但仍有待提升。
改进建议与研究方向：应采用能体现鲁棒性保证的方法，使 LMaaS 的可解释性符合研究界的期望。
- 通过形式化方法，确保模型决策与输出在给定公理下具有逻辑一致性
- 结合强化学习等算法，在训练时增强模型对相似输入的不变性和解释的明确性。
- 开发超越递归提示的策略，实现对模型决策的无偏内省，并将训练过程与可靠的事后方法相结合。

如何缓解LMaaS的相关问题

本节基本是对前文的总述，由AI阅读汇总生成。

1. 可访问性（Accessibility）

开源与透明
- 公司应发布 LMaaS 的源代码或详细模型卡（至少对审计人员开放）。
- 提供不同规模的模型版本（如 Alpaca、LLaMA），降低计算资源门槛。
公平性与语言支持
- 开发公平的 tokenizer 和按 token 付费政策，减少低资源语言用户的成本差异。
- 评估并量化技术弱势群体在访问 LMaaS 时的差距，推动政策干预。