
В эпоху стремительного развития больших языковых моделей (LLM), вопрос не просто в масштабе, а в способности к истинному рассуждению, особенно в сложных сценариях, остаётся ключевой проблемой. В исследовании «Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning«, авторы сталкиваются с парадоксом: стандартные методы обучения, опирающиеся на прямую оптимизацию или простое подражание экспертам, зачастую терпят неудачу при решении действительно трудных задач, где даже небольшая ошибка в начальной стадии рассуждений может привести к полному краху всей цепочки логических выводов. Но возможно ли создать модель, способную не просто имитировать процесс мышления, а пошагово, осознанно строить логическую цепочку, извлекая уроки из опыта экспертов и адаптируясь к новым, незнакомым ситуациям? И, главное, способно ли такое обучение преодолеть порог сложности, где стандартные методы оказываются бессильны, и открыть путь к созданию действительно разумных систем искусственного интеллекта?