Возвращаем LLMки в школу: будем решать Кенгурёнка! Большинство математических… — @seeallochnaya

Возвращаем LLMки в школу: будем решать Кенгурёнка! Большинство математических бенчмарков сосредоточены на текстовых задачах. Однако в реальной жизни математика часто связана с визуальными элементами, такими как геометрические фигуры, диаграммы и графики. Авторы MathArena взяли варианты Кенгурёнка, олимпиады по математике для детей школьного возраста, от марта 2025-го года. Вероятность, что модели тренировались на этих данных, ненулевая, но очень маленькая. Взяли варианты из албанской версии — частично потому, что там выше качество иллюстраций, загруженных на сайт. Всего вышло 168 задач, разбитых на 6 групп по классам: 1-2, 3-4 и так до 11-12; на них замерили GPT-5, Gemini 2.5 Pro, Grok 4 и пару открытых моделей. Казалось бы, что чем выше возрастная группа детей, для которых предназначены задачи, тем ниже должна быть оценка моделей. А вот нифига — получилось ровно наоборот. Задачи начальной школы решают на 61-69%, а 11-12 класса — на 95%. Почему так? В 80% задач для младших классов требуется интерпретация изображений, в то время как для старших классов это значение составляет всего 40% (то есть больше текстовых задач). Аналогично, варианты ответов представлены в виде изображений в 37% случаев для младших классов, но только в 4 из 90 задач для старших. Но даже если брать срез только по задачам с картинками, то наблюдается та же закономерность. Авторы объясняют это так: задачи для младших классов чаще опираются на базовые визуальные навыки, такие как пространственное мышление, распознавание форм и простую 2D/3D визуализацию. Именно в этих областях современные визуально-языковые модели (VLM) проявляют наибольшие слабости. Напротив, задачи для старших классов акцентируются на более абстрактных математических рассуждениях, с которыми модели справляются лучше. Чтобы убедиться в этом, вручную выбрали четыре задачи, в которых модели терпели неудачу из-за сложности восприятия условия задачи, выраженного картинкой, хотя сами условия можно было полностью представить в виде текста. Средняя точность на этих четырёх задачах возросла с 25% до 100%. Это подтверждает, что компонент рассуждений сам по себе полностью позволяет решать задачу; проблема именно в восприятии условий, модели не могут разглядеть, что там и как. Так что всё, готовьтесь: придёт суперинтеллект, и нам только и останется что выполнять задачи для детей, посчитать кружочки или там определить цвет солнышка. Правы были те, кто смеялся над тем, что LLM не могут подсчитать количество букв. Ну вот и будем этим заниматься, пока последние придумывают лекарство от рака 👍 Блог

Из этого канала