你的位置：九游娱乐(中国)网址在线 > 新闻中心 > 九游会J9用于生成复杂问题的徐徐简化变体的树-九游娱乐(中国)网址在线

九游会J9用于生成复杂问题的徐徐简化变体的树-九游娱乐(中国)网址在线

时间：2025-08-14 10:26 点击：137 次

眼光过 32B 的 QwQ 追平 671 的 DeepSeek R1 后——

刚刚，7B 的 DeepSeek 蒸馏 Qwen 模子卓绝 o1 又是若何一趟事？

新设施 LADDER，通过递归问题瓦解兑现 AI 模子的自我改良，同期不需要东谈主工标注数据。

使 Deepseek-R1 蒸馏的 Qwen2.5 7B 模子在麻省理工学院积分大赛（MIT Integration Bee）上达到 90 分卓绝 o1。

注目，不是积分制的比赛哦，是只作念微积分中积分题的比赛，MIT 的数学妙手每年王人会挑战一次，题目像这么：

LADDER 论文来自袖珍零丁商议团体Tufa Labs，论文已上传到 arXiv。

LADDER，全称 Learning through Autonomous Difficulty-Driven Example Recursion，即"通过自主难度驱动的样本递归进行学习"。

这个名字听起来有点拗口，但中枢其实很容易交融：等于让话语模子（LLM）通过自我生成和求解渐进简化的问题变体，来不断普及我方惩处复杂问题的智力。

具体来说，LADDER 是一个结构化框架，由以下组件构成：

变体生成：一种结构化设施，用于生成复杂问题的徐徐简化变体的树，从而耕种当然的难度梯度。

解的考证：一种用于考证积瓦解的数值积分设施。

强化学习：用于在变体树上考试基础模子的公约。

而 LADDER 这个名字，也意味着像是模子学会了"爬梯子"：通过自主生成一系列从易到难的问题变体，不断进修和强化，最终爬到尖端。

以往的考试设施，老是离不开大限制标注数据。

LADDER 诈欺模子现存智力来生成问题变体，酿成按次渐进的难度梯度，最终兑现自举学习。通盘这个词经由只需对谜底进行考证即可，无需东谈主工搅扰。

比拟之前的设施，LADDER 有三大上风：

不再依赖东谈主工标注数据，镌汰了数据得到资本；模子通过生成问题变体构建针对性的学习旅途，学习更高效；生成的问题变体与原始问题有关性高，幸免堕入无关细节。

此外，作家还提倡了一种转变的测试时强化学习设施 TTRL。在推理阶段遭受复杂的数学积分测试问题时，TTRL 会动态生成一系列更浮浅的积分变体，模子通过惩处这些变体来积贮素质，找到惩处原始繁重的设施。

这种测试时野心扩张的想路，为进一步普及模子性能开拓了新的谈路。不同于浮浅加多输出长度，TTRL 大致让模子在推理时针对性地"刷题"，动态扩张智力范围。

通过 LADDER，一个蓝本只须 1% 准确率的 Llama 3.2 3B 模子，在莫得任何东谈主工标注数据的情况下，解题准确率飙升至 82%。

更精深的基础模子 Qwen2.5 7B Deepseek-R1 Distilled，在用上 LADDER 设施后，

MIT Integration Bee 比赛的获利就从 50% 提高到 73%。

临了，LADDER 加上 TTRL 设施，让最终获利达到 90。

不外作家也强调，与 o1 的对比不是严格的头寇仇评估。

o1 无法探望数字查验器，这意味着它在不同的拘谨下初始。LADDER 的效果强调了通过递归问题瓦解和强化学习进行自我普及的有用性，而不是标明它班师优于 o1 的设施。

论文地址：https://arxiv.org/abs/2503.00735

参考鸠合：

[ 1 ] https://x.com/yoshiyama_akira/status/1897662722679959583九游会J9

j9九游会官方港股汽车股宽广下落-九游娱乐(中国)网址在线

25-12-06

新闻中心

j9九游会真人加拿大交通部长在嘱托部长的指引下-九游娱乐(中国)网址在线

25-12-06

新闻中心

j9九游会官方港股内险股、中资券商股午前跳水走低-九游娱乐(中国)网址在线

25-12-06

新闻中心

j9九游会　　这台八轴制式的“钢铁巨东说念主”-九游娱乐(中国)网址在线

25-12-03

新闻中心

九游会J9用于生成复杂问题的徐徐简化变体的树-九游娱乐(中国)网址在线

j9九游会官方港股汽车股宽广下落-九游娱乐(中国)网址在线

j9九游会真人加拿大交通部长在嘱托部长的指引下-九游娱乐(中国)网址在线

j9九游会官方港股内险股、中资券商股午前跳水走低-九游娱乐(中国)网址在线

j9九游会 这台八轴制式的“钢铁巨东说念主”-九游娱乐(中国)网址在线

j9九游会　　这台八轴制式的“钢铁巨东说念主”-九游娱乐(中国)网址在线