Создатель одного из самых популярных тестов AGI для ИИ в 2022 и 2023 годах говорил публично, что тест вряд ли будет пройден в течении многих лет. В декабре 2024 модель OpenAI o3 показала выше 85%, что превосходит средний результат людей. После этого был запущен куда более сложный текст ARC-AGI-2, а сегодня вот официально опубликовано решение Poetiq (опенсорсная обвязка вокруг LLM) с использованием GPT-5.2, которое показало 75% в челлендже. Они использовали модель в режиме мега-пупер размышлений (читай: длина CoT), но как видно на графике это меньше $10 на задачу. Не прошло и года, а очередной бенчмарк AGI уже не торт. Понятно, что goalpost продолжит двигаться, но вот посмотреть промты и логику работы Poetiq я очень рекомендую. Это не совсем «один промпт = один ответ», а мета-система, которая показывает LLM несколько пар вход-выход, просит придумать правило и часто сразу написать Python-код, затем сама запускает этот код на тренировочных примерах, смотрит где не совпало, возвращает фидбек модели и заставляет исправлять (иногда меняя стратегию или даже выбирая другую модель для следующего шага). Фактически, это аудирующая сама себя система, которая обучается вне LLM и использует опыт решения для новых задач.
Создатель одного из самых популярных тестов AGI для ИИ в 2022 и 2023 годах…
Из этого канала
- #2739Философия сознания LLM Если вы хотите получить дозу предновогодней тоски…
Философия сознания LLM Если вы хотите получить дозу предновогодней тоски необъяснимой, то предлагаю заглянуть в глубину души вашей любимой LLM используя промт…
- #2740Что будет с «бесполезным классом»? ИИ и роботы неизбежно автоматизируют сотни…
Что будет с «бесполезным классом»? ИИ и роботы неизбежно автоматизируют сотни миллионов рабочих мест, как это повлияет на мир? Я не волнуюсь за экономику, ибо…
- #2741Как именно ИИ изменит мир за 20 лет? Пару недель назад я провел опрос среди…
Как именно ИИ изменит мир за 20 лет? Пару недель назад я провел опрос среди читателей на тему главных последствий развития ИИ.
- #2737Что делать, чему учиться, чего бояться и чему радоваться в век ИИ? Записали с…
Что делать, чему учиться, чего бояться и чему радоваться в век ИИ? Записали с Максимом подкаст на тему того какие варианты будущего открывает для нас развитие…
- #2736Работа – это не фича, а временный баг цивилизации, который вот-вот пофиксят. В…
Работа – это не фича, а временный баг цивилизации, который вот-вот пофиксят. В новом выпуске подкаста “Визионеры” обсудили со Степаном Гершуни, инвестором в…