Возвращаем LLMки в школу: будем решать Кенгурёнка! Большинство математических бенчмарков сосредоточены на текстовых задачах. Однако в реальной жизни математика часто связана с визуальными элементами, такими как геометрические фигуры, диаграммы и графики. Авторы MathArena взяли варианты Кенгурёнка, олимпиады по математике для детей школьного возраста, от марта 2025-го года. Вероятность, что модели тренировались на этих данных, ненулевая, но очень маленькая. Взяли варианты из албанской версии — частично потому, что там выше качество иллюстраций, загруженных на сайт. Всего вышло 168 задач, разбитых на 6 групп по классам: 1-2, 3-4 и так до 11-12; на них замерили GPT-5, Gemini 2.5 Pro, Grok 4 и пару открытых моделей. Казалось бы, что чем выше возрастная группа детей, для которых предназначены задачи, тем ниже должна быть оценка моделей. А вот нифига — получилось ровно наоборот. Задачи начальной школы решают на 61-69%, а 11-12 класса — на 95%. Почему так? В 80% задач для младших классов требуется интерпретация изображений, в то время как для старших классов это значение составляет всего 40% (то есть больше текстовых задач). Аналогично, варианты ответов представлены в виде изображений в 37% случаев для младших классов, но только в 4 из 90 задач для старших. Но даже если брать срез только по задачам с картинками, то наблюдается та же закономерность. Авторы объясняют это так: задачи для младших классов чаще опираются на базовые визуальные навыки, такие как пространственное мышление, распознавание форм и простую 2D/3D визуализацию. Именно в этих областях современные визуально-языковые модели (VLM) проявляют наибольшие слабости. Напротив, задачи для старших классов акцентируются на более абстрактных математических рассуждениях, с которыми модели справляются лучше. Чтобы убедиться в этом, вручную выбрали четыре задачи, в которых модели терпели неудачу из-за сложности восприятия условия задачи, выраженного картинкой, хотя сами условия можно было полностью представить в виде текста. Средняя точность на этих четырёх задачах возросла с 25% до 100%. Это подтверждает, что компонент рассуждений сам по себе полностью позволяет решать задачу; проблема именно в восприятии условий, модели не могут разглядеть, что там и как. Так что всё, готовьтесь: придёт суперинтеллект, и нам только и останется что выполнять задачи для детей, посчитать кружочки или там определить цвет солнышка. Правы были те, кто смеялся над тем, что LLM не могут подсчитать количество букв. Ну вот и будем этим заниматься, пока последние придумывают лекарство от рака 👍 Блог
Возвращаем LLMки в школу: будем решать Кенгурёнка! Большинство математических…
Из этого канала
- #3011По исходу 3 недель с релиза Sora продолжает удерживать топ-1 в AppStore в…
По исходу 3 недель с релиза Sora продолжает удерживать топ-1 в AppStore в категории бесплатных приложений, всё ещё опережая ChatGPT.
- #3012Видимо, сегодня OpenAI представят свой браузер — ролик с намёком появился в…
Видимо, сегодня OpenAI представят свой браузер — ролик с намёком появился в твиттер-аккаунте компании.
- #3014Пока ждём стрима — вот ещё интересная новость от Bloomberg: — OpenAI привлекли…
Пока ждём стрима — вот ещё интересная новость от Bloomberg: — OpenAI привлекли более 100 бывших инвестиционных банкиров для обучения своих LLM созданию…
- #3009Наконец-то запустился фаб TSMC в Аризоне, способный печатать 3 нм чипы — в…
Наконец-то запустился фаб TSMC в Аризоне, способный печатать 3 нм чипы — в пятницу в США был произведён первый чип Blackwell (последнее поколение, не какое-то…
- #3008Причина, по которой всем так важно продолжать делать вид, будто ИИ общего…
Причина, по которой всем так важно продолжать делать вид, будто ИИ общего назначения (AGI) вот-вот появится, заключается в том, что на этой вере уже завязано…