"OpenAI Codex накосячил немного при написании виртуального Excel на Rust Предыстория: (1) тренд на встраивание виртуальных JS (а не Python!) компонентов в системы с LLM под капотом (2) архитектура с ""experiment log"" для автономной работы агентов, про которую я узнал у Айгиза. (3) эксперимент с автономным написанием виртуального Excel на Go (c поддержкой формул, диапазонов, циклов зависимостей итп) Эксперимент удался, а код получился нормальный. Без ожидаемого спагетти, ужаса и захардкоженных тестов. Я подумал, что что-то делаю неправильно, и дал задание обнулить весь код, заменить слово ""Go"" на ""Rust"" в документации. И потом снова и снова копипастой отправлял с телефона задание: __(1) запусти скрипт `make test`, оно протестирует твой код, выдаст ошибки и выдаст score (изначально кода нет совсем, поэтому и тестер выдает 0%) (2) изучи код вдумчиво и найди, чего не хватает (3) предложи мне минимальное изменение, которое максимально увеличивает score __ Кстати, всего в eval - 235 разных тестов. В итоге получился вот такой git log ``` 98.3% -> 100.0% Add LOG/ROUND and MID numeric handling Improve logical functions 95.7% -> 98.3% Add text helpers 89.4% -> 95.7% Increase accuracy 87.2% -> 89.4% by adding COUNTIF Add SUBSTITUTE text function (84.3% -> 87.2%) Handle IFERROR evaluation (82.6% -> 84.3%) 78.3% -> 82.6% Improve lookup NA handling Add lookup functions 52.8% -> 78.3% Format test accuracy as percent (52.8% -> 52.8%) Add LEFT/RIGHT/MID support 48.1% -> 52.8% Add range aggregates 44.3% -> 48.1% Add text concat and basic string functions (34.0% -> 44.3%) 12.0% -> 34.0% Add comparison and logical functions Add mul/div parsing 4.7% -> 12.0% Implement MVP formula engine (0.0% -> 4.7%) Filter formula-only comparisons (0.0% -> 0.0%) Switch to Rust harness (0.0% -> 0.0%) ``` Но OpenAI Codex таки накосячил и запихал всю логику в единственный файл. Пришлось потом его просить раскидать логику по файлам, чтобы было красиво и логично. Без человека - ну никак. Как я узнал сегодня, это не столько я такой везучий, а просто GPT-5.2 настолько похорошел с автономной работой. Cursor опубликовали отчет про эксперименты (english) с автономной работой агентов неделями. Они просили написать браузер с нуля, оптимизировать видео-кодек и мигрировать сам код Cursor с Solid на React. Так что если у вас Cursor будет немного глючить, то вы знаете, что это из-за неспособности AI самостоятельно писать нормальный код на +266K/-193K изменений)) Ваш, @llm_under_hood 🤗"
"OpenAI Codex накосячил немного при написании виртуального Excel на Rust…
Из этого канала
- #732Вышел эпизод продуктового подкаста make sense. Мы с Юрой Агеевым беседуем о…
Вышел эпизод продуктового подкаста make sense. Мы с Юрой Агеевым беседуем о практическом внедрении LLM, повышении предсказуемости результата и переходе от…
- #733Список моих ChatGPT запросов в этом месяце, которые с лихвой окупили подписку…
Список моих ChatGPT запросов в этом месяце, которые с лихвой окупили подписку (обычно это не один запрос, а несколько, которые запускаются последовательно) (0)…
- #734"Кто там хотел локальной Claude Code ? ollama с версии 0.14 поддерживает…
"Кто там хотел локальной Claude Code ? ollama с версии 0.14 поддерживает Anthropic Messages API, что позволяет использовать Claude Code с локальными моделями…
- #730"Маленький и крышесносный пример Feedback Loop в AI Системах Про важность…
"Маленький и крышесносный пример Feedback Loop в AI Системах Про важность качественного цикла обратной связи (Feedback Loop) для работы с LLM я, по-моему,…
- #72975% читателей канала подсели на LLM/AI, но есть нюансы В некоторых корпорациях…
75% читателей канала подсели на LLM/AI, но есть нюансы В некоторых корпорациях формально запрещены современные LLM/AI системы (как для кодинга, так и для…