ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio.… — @AGI_and_RL

ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio. Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и учить рл. Вот ллмки тестят https://jackhopkins.github.io/factorio-learning-environment/ Factorio Learning Environment https://jackhopkins.github.io/factorio-learning-environment/assets/documents/paper.pdf https://github.com/JackHopkins/factorio-learning-environment 2 режима Lab-play где 24 задачи и фиксированными ресурсами Open-play на процедурной карте нужно построить самый большой завод Есть лидерборд (Factory-Bench Leaderboard) - https://jackhopkins.github.io/factorio-learning-environment/leaderboard/ Авторы тестили: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash и Llama-3.3-70B-Instruct Sonnet из протестированных лучше всех себя показывает Выводы авторов: ```1. Навыки в кодинге имеют значение Модели с более высокими способностями программирования (Claude 3.5-Sonnet, GPT-4o) достигли более высоких Production Scores и выполнили больше лабораторных задач. Claude превзошёл остальных, заработав PS равный 293 206 и достигнув 28 вех, продвинувшись за рамки добычи ресурсов на ранних этапах. 2. Инвестиции в технологии стимулируют рост Только Claude стабильно инвестировал ресурсы в исследования новых технологий, несмотря на их важность для долгосрочного прогресса. После внедрения электрических буровых установок на шаге 3 000, PS Claude вырос на 50% (с 200 000 до 300 000), что демонстрирует ценность стратегических инвестиций. 3. Планирование является ключевым фактором в режиме открытой игры В режиме открытой игры агенты часто преследуют краткосрочные цели — например, Gemini-2.0 вручную изготовил более 300 деревянных сундуков за 100 шагов — вместо того чтобы инвестировать в исследования или масштабировать существующее производство. Это выявляет существенное расхождение: хотя Gemini-2 и Deepseek демонстрируют возможности автоматизации на ранних этапах в структурированном лабораторном режиме, они редко пытаются создать согласованную фабричную систему во время открытых исследований, что приводит к ухудшению общей производительности. 4. Способности к пространственному мышление пока недостаточны Все модели продемонстрировали ограничения в пространственном планировании при создании много-секционных фабрик. Распространённые ошибки включали размещение объектов слишком близко друг к другу, недостаточное выделение пространства для соединений или неправильное расположение инсертеров — проблемы, которые существенно влияют на производительность в сложных заданиях, требующих координации нескольких производственных линий. 5. Сейчас ллмкам сложно исправлять ошибки Модели часто оказываются в повторяющихся циклах ошибок, повторяя одни и те же неверные операции вместо того чтобы искать альтернативные решения. Например, GPT-4o неверно повторял один и тот же метод API на протяжении 78 последовательных шагов, несмотря на идентичные сообщения об ошибке. 6. Стили программирования существенно различаются Модели демонстрировали различные подходы к программированию: Claude предпочитал стиль REPL с большим количеством операторов вывода (43,3% строк кода), но с малым числом утверждений (2,0%), в то время как GPT-4o использовал оборонительный стиль с большим числом проверок валидации (12,8% утверждений) и меньшим количеством операторов вывода (10,3%).``` Это просто бенч и тут просто потестили текущие ллмы. Результатам не сильно удивился. Ждем пока специально пообучают ллмки, RL LLM накинут. PS собираемся и собираем все крутое по нейронкам здесь: https://t.me/researchim

Из этого канала