По поводу бенчмарков для ИИ. Пока одни нейронки пытаются торговать на бирже, другие не могут разобраться в своей же экосистеме. Я вчера показывал студентам, как планировать время и проекты с помощью ИИ. Взял как (анти)пример - Алису и ГагаЧат. Я периодически проверяю, насколько они подросли и как все длиннее отрастает хвост отставания от топовых платформ. С первым шагом - составлением текстового расписания - отечественный ИИ, очевидно, неплохо справляется, хотя девушка дает приличную фору гусю. Увы, по-агентски перенести все это в календарь оба не умеют, предлагают пользователю копипейст. 🤦‍♂️ Когда я попросил их хотя бы сгеренить .ics для подгрузки в Календарь, Алиса выдала битый файл и полчаса не могла исправить его, хотя я показывал ей код простейшей ошибки (финальную строчку пропустила). Гага вообще какой-то комок кода сделал и получил отставку. В итоге недофайл Алисы, загруженный в chatgpt🤖, был исправлен за несколько секунд с пояснениями и отлично встал в календарь. Может, справедливости ради, стоило бы сказать: а много ли мы знаем стран, которые делают свои нейронки? Алиса и Сбер ведь могут неплохо дебажить код на уровне совсем зеленого джуна и сносно редактировать тексты. Но все же каждый раз я жду прорыва, и каждый раз становится жалко потраченного на них времени.