"AI неотличим от магии - и это меня дико раздражает __(до комментариев - читаем пост до конца!)__ Этой весной я делал доклад для IBM про текущее состояние AI. Там я проводил параллели с технологиями, которые со временем развились до такого состояния, что стали неотличимы от магии - про энергию, связь, полет и автоматизацию/AI Каждая технология начиналась с мифов и магии, когда люди eще не понимали ничего и тыкались вслепую, приписывая все божественным сущностям и ритуалам. А если что-то шло не так, то это ""Зевс покарал"" или ""демона назвали неправильным именем"". Со временем технологиии теряли магический флер, превращались в точные инженерные науки и развивались до современных высот: - Полет - от Мифа о Дедале и Икаре до возвращаемых многоэтажок Startship - Связь - от связи с богами через Дельфийского Оракула до спутников Starlink и спутниковой связи на обычных телефонах. - Энергия - от молний Зевса до комбайнов ASML, которые испаряют лазерами капельки олова только для того, чтобы поймать выделившийся свет нужной волны зеркалами и отразить его на будущий процессор - Автоматизация и AI - от бронзового автомата Талоса до… А вот с AI пока неувязочка - мы дальше ритуалов и магического мышления не пошли. Примеры: (1) люди очень любят спорить на тему “а что такое настоящая агентность?”, “а как правильно говорить - агентный или агентский?” итп - словно правильное название системы сделает ее более способной делать свою работу. На самом деле нет - система в реальности либо выполняет функции, либо выдает ошибки, которые нужно измерять, отслеживать и чинить. Если система работает - что у нее под капотом, и как оно названо - без разницы. А если работает неправильно, то правильно назвав - ничего не изменишь. Надо собирать тесты, измерять и последовательно улучшать. (2) недавно вышел нашумевший доклад ""State of AI in Business 2025"" на тему, что 95% компаний, которые вложили в сумме 30-40 миллиардов USD в AI - в итоге потратили деньги без выхлопа. В отчете еще подчеркивается, что некоторые компании, которые вкладываются осознанно в фичи, не распыляются и собирают обратную связь - получают выхлоп. Этот доклад - раздражающее переливание из пустого в порожнее. Там AI приписываются магические свойства вроде GenAI divide, неспособности адаптироваться, реагировать на обратную связь. Прямо какая-то проклятая технология, которая заставляет компании забывать про процесс оценки рисков любого софта и сервиса, вбрасывая миллиарды долларов без тестов и пилотов. После публикации SGR Demo - на разных площадках начались разговоры про то, что это частичный агент - хороший, но без оркестратора - еще не настоящий, магии не будет. Или что подход идет против шерсти RL и будет дурно влиять на качество и надои. И только две команды в мире почесали в затылке и сказали ""а вот теперь мы понимаем, как разбить reasoning flow нашего продукта на шаги, замерить качество и начать его улучшать. Пошли делать бенчмарки и эксперименты!"" TL;DR; Агенты - просто ерунда. MCP - плохо тестируемая ерунда. SGR - тоже ерунда, которая показывает, как делать процесс reasoning тестируемым. Не верьте слепо ерунде и в ерунду, она от этого лучше работать не станет. А вот инженерный подход - это другое дело: тесты, бенчмарки и итеративное улучшение качества на основе фактов. Да, это много работы, тут еще и думать надо. Но зато, при последовательном вложении сил и времени, появляются гарантии результата. Ваш, @llm_under_hood 🤗"
"AI неотличим от магии - и это меня дико раздражает (до комментариев - читаем…
Из этого канала
- #647Новые бенчмарки LLM на бизнес задачах в SGR режиме (1) gpt-5-chat-latest - это…
Новые бенчмарки LLM на бизнес задачах в SGR режиме (1) gpt-5-chat-latest - это урезанный снапшот быстрой модели, которая работает под капотом в ChatGPT.
- #648"Как полностью отключить reasoning у GPT-5 моделей? Мне стало интересно,…
"Как полностью отключить reasoning у GPT-5 моделей? Мне стало интересно, сколько времени уходит на reasoning у GPT-5 моделей, а ребята из окружения OpenAI как…
- #649Бенчмарк LLM и агентских подходов - будет На прошлой неделе я начал…
Бенчмарк LLM и агентских подходов - будет На прошлой неделе я начал разрабатывать среду для тестирования агентов (AGES - Agentic Enterprise Simulation).
- #645"Демо чата с Deep Search поиском - SGR Deep Research На базе демки…
"Демо чата с Deep Search поиском - SGR Deep Research На базе демки бизнес-ассистента с Schema-Guided Reasoning продолжают делать новые и интересные…
- #644"Как сделать агента, который может адаптировать свой план ""на лету""? В…
"Как сделать агента, который может адаптировать свой план ""на лету""? В процессе обсуждения SGR Demo, было сделано интересное замечание: > Но реальное…