Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards.… — @gonzo_ML

Вчера на NeurIPS анонсировали победителей NeurIPS 2025 Best Paper Awards. Начинаем постить разборы статей-призёров. Сегодня про иллюзию разнообразия моделей. Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) __Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi__ Статья: https://arxiv.org/abs/2510.22954 Код: https://github.com/liweijiang/artificial-hivemind Датасеты: https://huggingface.co/collections/liweijiang/artificial-hivemind-6826e108da3260c02a1a2ec0 Ревью: https://arxiviq.substack.com/p/neurips-2025-artificial-hivemind # TL;DR ЧТО сделали? Авторы представили INFINITY-CHAT — датасет из 26 тысяч реальных открытых (open-ended) запросов, чтобы проверить разнообразие ответов у 70+ SOTA LLM. Они обнаружили эффект «Искусственного Роевого Разума» (Artificial Hivemind): модели демонстрируют жесткий mode collapse (схлопывание мод). Они не только повторяются сами (intra-model), но и выдают пугающе похожие ответы, даже если это модели от совершенно разных разработчиков (inter-model). ПОЧЕМУ это важно? Это ломает стереотип, что для разнообразия достаточно поднять температуру или собрать ансамбль моделей. Исследование показывает, что современные методы RLHF и instruction tuning настолько «причесали» латентное пространство, что DeepSeek и GPT-4 в креативных задачах ведут себя как клоны. А текущие Reward Models не справляются с плюрализмом мнений и занижают оценки валидным, но нестандартным ответам. Подробнее: https://t.me/gonzo_ML_podcasts/1468

Из этого канала