"OpenAI Codex накосячил немного при написании виртуального Excel на Rust… — @llm_under_hood

"OpenAI Codex накосячил немного при написании виртуального Excel на Rust Предыстория: (1) тренд на встраивание виртуальных JS (а не Python!) компонентов в системы с LLM под капотом (2) архитектура с ""experiment log"" для автономной работы агентов, про которую я узнал у Айгиза. (3) эксперимент с автономным написанием виртуального Excel на Go (c поддержкой формул, диапазонов, циклов зависимостей итп) Эксперимент удался, а код получился нормальный. Без ожидаемого спагетти, ужаса и захардкоженных тестов. Я подумал, что что-то делаю неправильно, и дал задание обнулить весь код, заменить слово ""Go"" на ""Rust"" в документации. И потом снова и снова копипастой отправлял с телефона задание: __(1) запусти скрипт `make test`, оно протестирует твой код, выдаст ошибки и выдаст score (изначально кода нет совсем, поэтому и тестер выдает 0%) (2) изучи код вдумчиво и найди, чего не хватает (3) предложи мне минимальное изменение, которое максимально увеличивает score __ Кстати, всего в eval - 235 разных тестов. В итоге получился вот такой git log ``` 98.3% -> 100.0% Add LOG/ROUND and MID numeric handling Improve logical functions 95.7% -> 98.3% Add text helpers 89.4% -> 95.7% Increase accuracy 87.2% -> 89.4% by adding COUNTIF Add SUBSTITUTE text function (84.3% -> 87.2%) Handle IFERROR evaluation (82.6% -> 84.3%) 78.3% -> 82.6% Improve lookup NA handling Add lookup functions 52.8% -> 78.3% Format test accuracy as percent (52.8% -> 52.8%) Add LEFT/RIGHT/MID support 48.1% -> 52.8% Add range aggregates 44.3% -> 48.1% Add text concat and basic string functions (34.0% -> 44.3%) 12.0% -> 34.0% Add comparison and logical functions Add mul/div parsing 4.7% -> 12.0% Implement MVP formula engine (0.0% -> 4.7%) Filter formula-only comparisons (0.0% -> 0.0%) Switch to Rust harness (0.0% -> 0.0%) ``` Но OpenAI Codex таки накосячил и запихал всю логику в единственный файл. Пришлось потом его просить раскидать логику по файлам, чтобы было красиво и логично. Без человека - ну никак. Как я узнал сегодня, это не столько я такой везучий, а просто GPT-5.2 настолько похорошел с автономной работой. Cursor опубликовали отчет про эксперименты (english) с автономной работой агентов неделями. Они просили написать браузер с нуля, оптимизировать видео-кодек и мигрировать сам код Cursor с Solid на React. Так что если у вас Cursor будет немного глючить, то вы знаете, что это из-за неспособности AI самостоятельно писать нормальный код на +266K/-193K изменений)) Ваш, @llm_under_hood 🤗"

Из этого канала