Вышел Grok-4 По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его… — @AGI_and_RL

Вышел Grok-4 По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его почти сразу завезли в курсор, поэтому я немного потыкался и поспрашивал. В повседневном диалоге/математике/науке - действительно не плох, хоть я и мучал его совсем чуть-чуть. А вот в коде - что-то очень странное. Во-первых, в курсоре у него закрыт CoT (видимо, он закрыт для всех по дефолту), но это даже не самое интересное, мы такое уже видели в линейке 'o' моделей от OpenAI. 1. Он уже несколько раз мне ничего не отвечал на промпт, только раздумывал что-то сам с собой. Но после того, как я спросил, почему он ничего не ответил, он извинялся и говорил так, будто оно так и должно было быть (т.к это часть шага) 2. Он не берется решать сразу проблему, а делает маленькие инкрементальные шаги, ожидая чего-то от меня (или, видимо, фидбек от системы) - например, при просьбе написать тесты, он пишет всего ОДНУ функцию и заканчивает turn, заставляя переспрашивать его снова. (Примеры таких 'пустых' диалогов прилагаю к посту) Это может наводить на мысли, что он обучался немного другому RL, либо у него, возможно, была целая среда, которая давала ему continuous feedback, вследствие чего тот научился делать постепенные небольшие шаги (или связке думать + бездействовать на этом шаге) в сторону правильного решения. Я не берусь ничего утверждать, это просто догадки спустя 1,5ч использования модели. В общем и целом, пока что он мне не очень понравился, по крайней мере, как ассистент для кода. Там ещё ожидается специализированный grok-code, так что посмотрим, что будет там)

Из этого канала