Не для всех очевидный факт, но взлет openclaw это прямое следствие DeepSeek. Объясню: - дипсик первым показал что RL среды с проверяемым результатом масштабируются, и в масштабе дают существенный прирост способностей моделей (2024, можно сказать что о1 был первым но они не написали внятного пейпера) - затем потребовался год чтобы фронтир лабы создали РЕАЛЬНО масштабируемые среды для long-running / large-context задач типа кода - это привело к Opus 4.5, который благодаря RL стал крутейшей агентской моделью, которая не теряется в длинных задач, навигирует в баше и может себя вернуть на русло истины. Итого: кроме претрейн скейлинга (который пока никуда не делся), у нас работает GRPO / RL with Verifiable Rewards скейлинг. Или совсем простыми словами: скорость «поумнения» LLM удвоилась за год (в самом консервативном случае, в реальности тут экспонента)