«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не… — @blog_sb

«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не перестанет врать 1/2 __Владимир Крылов, профессор математики, научный консультант Artezio и один из самых глубоких русскоязычных экспертов по применению ИИ в разработке, дал интервью по итогам года…__ https://habr.com/ru/companies/lanit/articles/985162/ Я попытался найти источники, на которые ссылался Владимир Крылов, прямо касающихся архитектуры и модульности (о модульности напишу позже). Есть не просто вычислительные проблемы — сам механизм attention представляет собой структуру, которая неизбежно содержит появление этих галлюцинаций. Существуют статистические ограничения, которые не преодолеют ни одна текущая архитектура, масштаб или оптимизация. Hallucination is Inevitable: An Innate Limitation of Large Language Models https://arxiv.org/html/2401.11817v2 Why Language Models Hallucinate https://arxiv.org/html/2509.04664v1 Вошли в моду малые LLM — те, которые можно развернуть on-premises: у себя дома, на предприятии. Смысла платить за использование больших моделей становится меньше. On the Fundamental Limits of LLMs at Scale https://arxiv.org/html/2511.12869v1 Здесь мы приходим к новой проблеме, которая существует в теории обучения. В ней было показано, что такое VC-размерность при обучении и какая граница существует для приближения решения задачи методом обучения. Эта граница проявилась именно при использовании reasoning. Нет reasoning — и всё становится лучше. Как я ни крутил, но • Научная работа, которая бы выводила из VC‑размерности именно формулу «reasoning ухудшает границы, а без reasoning всегда лучше», не просматривается. • Ближайшая серьёзная теоретическая статья (Joshi et al.) как раз показывает, что правильно использованный chain‑of‑thought помогает обойти “проклятие длины рассуждения”, а не создает его: A Theory of Learning with Autoregressive Chain of Thought https://arxiv.org/html/2503.07932v2 __ __Но есть и другая статья: The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning https://arxiv.org/html/2504.05081v2 Выводы в статье: В pattern‑based in‑context learning (индукция правил по примерам) CoT/Tree‑of‑Thought/ReAct часто дают худшую точность, чем прямой ответ (direct answering), при этом тратят в 10–40 раз больше токенов. Но это эмпирика на конкретном классе задач (pattern‑ICL) без связи с VC‑размерностью и они аккуратно говорят: «CoT не универсальное благо, а имеет домены, где вредит». В общем, пока вывод такой, что длинные цепочки рассуждений: • могут улучшать сложное рассуждение в одних задачах; • и ухудшать обобщение и устойчивость в других классах задач (pattern‑ICL) если вы вводите аугментацию, например, RAG, дополнительные инструменты, данные, которые привязывают к текущему решению задачи тот промпт, который вы подали во входное контекстное окно LLM, то вероятность галлюцинации резко снижается Reducing hallucination in structured outputs via Retrieval-Augmented Generation https://arxiv.org/html/2404.08189v1 Mitigating Hallucination in Large Language Models (LLMs): An Application-Oriented Survey on RAG, Reasoning, and Agentic Systems https://arxiv.org/html/2510.24476v1 А файлы, которые имеют влияние, но не попали в контекстное окно, оказываются в стороне. Человек-разработчик знал, что у него есть зависимость, а LLM эту зависимость просто не видит из-за attention. Lost in the Middle: How Language Models Use Long Contexts https://arxiv.org/abs/2307.03172 Интересно, что «даже попавшие в контекст куски используются неравномерно». Vодель будет: • переоценивать начало/конец, • недооценивать «середину» и распределенные зависимости, • а все, что не влезло, вообще будет вне поля зрения

Из этого канала