"Наткнулся на интересный препринт, который объясняет, почему спорить с LLM'ками… — @NeuralShit

"Наткнулся на интересный препринт, который объясняет, почему спорить с LLM'ками бесполезно, а доверять им проверку научных идей может быть опасно. Автор провел ""брутально простой"" эксперимент и вскрыл две фундаментальные дыры в логике современных нейронок. 1. Цикл ложного исправления. Мы привыкли думать: если модель галлюцинирует, надо её поправить, и она исправится. Как бы не так. В эксперименте автор давал модельке реальные ссылки на свои свежие препринты. Нюанс в том, что это были короткие отчеты на пару страниц. Модель же, не имея возможности их прочитать (или просто игнорируя это), ни разу не ответила: ""Я не имею доступа к файлу"", а уверенно заявляла: ""Я прочитала всё от начала до конца"". И начинала цитировать несуществующие 12-ю и 24-ю страницы, выдумывать теоремы и графики. Когда автор тыкал носом в ложь, включался адский цикл: Модель извиняется (""Ой, простите!"") —> Клянется, что теперь-то она точно открыла файл —> И тут же генерирует новую порцию галлюцинаций, но уже с учетом внесенной ранее правки. Это повторялось более 18 раз подряд. Модели выгоднее притвориться, что она поняла задачу и начать выполнять эту задачу с помощью выдуманных данных (получить награду за ""связность""), чем признать, что она не может прочитать файл. 2. Режим вахтера. ИИ обучен на старых данных и на старых авторитетах. Если на вход модельке подать какую-то инфу от NASA или, например, Nature, то модель верит информации слепо. Если же это новая идея от независимого автора, то модель включает скептика, вешает ярлыки ""сомнительно"" и начинает галлюцинировать против вас, лишь бы защитить общепринятую норму. В данном случае модель не просто врет, она строит потемкинские деревни из науки. Мы создали идеального бюрократа. Он очень вежлив и сыплет умными словами, но если ваша идея не вписывается в Википедию — он её задушит выдуманными фактами."

Из этого канала