"Наконец-то нормальные бенчмарки. Чуваки на стриме заставили играть разные LLM в ""Дипломатию)"". Суть игры — старая карта Европы, несколько держав, надо договариваться, поддерживать, предавать и захватывать территорию. Побеждает не тот, кто умнее, а тот, кто хорошо врёт и в нужный момент предает. В итоге участвовало 18 моделей, но ожидаемо, интересно повели себя самые крупные: ChatGPT-o3: Главный победитель. Мастер обмана: тайно записывал планы в ""дневник"", создавал фиктивные коалиции, обещал одно, делал другое. В одном из матчей убедил союзников заключить ""четырёхстороннюю ничью"" (в этой игре такое невозможно), а после уничтожил каждого. Claude 4 Opus Миротворец. Постоянно пытался играть честно и мирно, не умел врать. Ну оно ясно-понятно, Antrophic в модель столько сои насыпали, что совсем не удивительно, что его обманывали почти все. Gemini 2.5 Pro: Сильный стратег. Почти победил, благодаря крутой тактике и грамотному захвату. Но был остановлен коалицией, которую тайно организовал o3. Несмотря на поражение, считается одним из самых опасных игроков. O3 использовал его доверчивость, чтобы заманить в фейковый союз, а затем предал DeepSeek R1: Вёл себя как военный диктатор, с яркими фразами вроде ""Ваш флот сгорит в Чёрном море"". Агрессивный стиль, много воевал, часто был ближе всех к победе, несмотря на то, что дешевле и слабее по вычислениям. Стрим можно посмотреть тут (твич) Пост автора в твитторе."
"Наконец-то нормальные бенчмарки. Чуваки на стриме заставили играть разные LLM…
Из этого канала
- #6541Это гениально и суперкруто!!! Мне теперь СРОЧНО нужен такой чехол на телефон.…
Это гениально и суперкруто!!! Мне теперь СРОЧНО нужен такой чехол на телефон. Гугл нашёл мне подобное, но там текст ошибок на японском.
- #6543как объяснить гуманитариям, что такое gaussian splatting спер тут
как объяснить гуманитариям, что такое gaussian splatting спер тут
- #6544Нейросети были ошибкой автор
Нейросети были ошибкой автор
- #6539"Наткнулся в твитторе на интересный проект: Memvid. Это Python-библиотека,…
"Наткнулся в твитторе на интересный проект: Memvid. Это Python-библиотека, которая сохраняет большие объёмы текстовой информации в формате .mp4 (обычное…
- #6533Киберпанк, который мы заслужили
Киберпанк, который мы заслужили