信息服务

AlphaOne 为 AI 开发者提供控制大语言模型"思考"的新旋钮，提升性能表现

发布于：2025-06-12 点击量：367 来源：至顶网

来自伊利诺伊大学厄巴纳-香槟分校和加州大学伯克利分校的研究人员推出了一个新框架，为开发者提供了对大语言模型 (LLM) "思考"方式的更多控制，在提升推理能力的同时更高效地利用推理预算。

这个名为 AlphaOne (α1) 的框架是一种测试时缩放技术，在推理过程中调整模型行为，无需进行昂贵的重新训练。它为调节先进大语言模型的推理过程提供了一种通用方法，为开发者提供了灵活性，能够以比现有方法更可控、更具成本效益的方式提升复杂任务的性能。

**缓慢思考的挑战**

近年来，大型推理模型 (LRM) 的开发者，如 OpenAI o3 和 DeepSeek-R1，已经纳入了受"系统 2"思维启发的机制——这是人类认知中缓慢、深思熟虑且逻辑性的模式。这与"系统 1"思维不同，后者是快速、直觉且自动的。融入系统 2 能力使模型能够解决数学、编程和数据分析等领域的复杂问题。

模型被训练自动生成过渡 Token，如"wait"、"hmm"或"alternatively"来触发缓慢思考。当这些 Token 之一出现时，模型会暂停对之前步骤进行自我反思并纠正方向，就像人在遇到困难问题时暂停重新思考一样。

然而，推理模型并不总能有效利用其缓慢思考能力。不同研究表明，它们容易对简单问题"过度思考"，浪费计算资源，或对复杂问题"思考不足"，导致错误答案。

正如 AlphaOne 论文所指出的："这是因为大型推理模型无法找到最优的类人系统 1 到系统 2 推理转换，且推理能力有限，导致推理性能不尽如人意。"

有两种常见方法来解决这个问题。并行缩放，如"best-of-N"方法，多次运行模型并选择最佳答案，但计算成本昂贵。顺序缩放试图在单次运行中调节思考过程。例如，s1 是一种通过在模型上下文中添加"wait" Token 来强制更多缓慢思考的技术，而"Chain of Draft" (CoD) 方法提示模型使用更少词汇，从而减少思考预算。然而，这些方法提供的是刚性的、一刀切的解决方案，往往效率不高。

**推理的通用框架**

研究人员没有简单地增加或减少思考预算，而是提出了一个更根本的问题：是否可能开发出更好的策略来在缓慢和快速思考之间转换，从而能够通用地调节推理预算?

他们的框架 AlphaOne 为开发者提供了在测试时对模型推理过程的精细控制。该系统通过引入 Alpha (α) 参数来工作，该参数充当缩放模型思考阶段预算的旋钮。

在生成的某个点之前 (研究人员称为"α 时刻")，AlphaOne 策略性地安排插入"wait" Token 的频率以鼓励缓慢、深思熟虑的思考。这实现了论文中描述的"可控且可扩展的思考"。

一旦达到"α 时刻"，框架会在模型上下文中插入 Token，结束缓慢思考过程并强制模型切换到快速推理并产生最终答案。

以前的技术通常应用研究人员所称的"稀疏调节"，只做少数几个孤立的调整，比如在整个过程中添加一两次"wait" Token。相比之下，AlphaOne 可以配置为频繁干预 (密集) 或很少干预 (稀疏)，为开发者提供了比其他方法更精细的控制。

AlphaOne 通过在不同间隔向模型上下文添加"wait" Token 来调节推理来源：AlphaOne GitHub 页面

"我们将 AlphaOne 视为深思熟虑推理的统一接口，与思维链提示或基于偏好的调优互补，并能够与模型架构一起发展，" AlphaOne 团队在书面评论中告诉 VentureBeat。"关键要点不在于实现细节，而在于一般原则：推理过程的慢到快结构化调节增强了能力和效率。"

**AlphaOne 实际应用**

研究人员在三个不同的推理模型上测试了 AlphaOne，参数规模从 15 亿到 320 亿不等。他们在数学、代码生成和科学问题解决的六个具有挑战性的基准上评估了其性能。

他们将 AlphaOne 与三个基线进行了比较：未修改的原始模型;单调增加缓慢思考的 s1 方法;以及单调减少缓慢思考的 Chain of Draft (CoD) 方法。

结果产生了几个对构建 AI 应用程序的开发者特别相关的关键发现。

首先，"先缓慢思考，再快速思考"的策略在大型推理模型中带来更好的推理性能。这突出了大语言模型与人类认知之间的根本差距，人类认知通常基于先快速思考后缓慢思考的结构。与人类不同，研究人员发现模型受益于在快速行动之前强制执行缓慢思考。

"这表明有效的 AI 推理不是来自模仿人类专家，而是来自明确调节推理动态，这与现实世界应用中已经使用的提示工程和分阶段推理等实践一致，" AlphaOne 团队说。"对开发者而言，这意味着系统设计应该主动施加慢到快的推理时间表来提高性能和可靠性，至少目前如此，因为模型推理仍然不完美。"

另一个有趣的发现是，投资于缓慢思考可以带来整体上更高效的推理。"虽然缓慢思考减慢了推理速度，但使用 α1 时整体 Token 长度显著减少，引发了缓慢思考带来的更有信息量的推理进展，"论文指出。这意味着虽然模型花费更多时间"思考"，但它产生了更简洁准确的推理路径，最终减少了生成的 Token 总数并降低了推理成本。

与 s1 风格的基线相比，AlphaOne 将平均 Token 使用量减少了约 21%，降低了计算开销，同时将推理准确率提高了 6.15%，甚至在博士级别的数学、科学和代码问题上也是如此。

虽然 AlphaOne 在开始时进展缓慢，但与其他测试时缩放方法相比，它最终用更少的 Token 获得更好的结果来源：AlphaOne GitHub 页面

"对于复杂查询回答或代码生成等企业应用，这些收益转化为双重好处：提高生成质量和显著节省成本，" AlphaOne 说。"这些可以降低推理成本，同时提高任务成功率和用户满意度。"

最后，研究发现高频插入"wait" Token 是有帮助的，AlphaOne 通过比以前方法更频繁地添加 Token 获得了更好的结果。

通过为开发者提供新的控制水平，预计很快发布代码的 AlphaOne 框架可以帮助他们在下一代推理模型之上构建更稳定、可靠和高效的应用程序。

"对于使用开源或定制模型的公司，特别是那些在预训练阶段使用过渡 Token 训练的模型，AlphaOne 设计为易于集成，" AlphaOne 团队告诉 VentureBeat。"在实践中，集成通常只需要最小的更改，比如简单地更新配置脚本中的模型名称。"

上一篇：红帽推出 AI 推理服务器，推动产品线扩展

下一篇：Databahn认为你的SIEM数据大多被浪费了——AI来拯救