NousResearch выпустили новую модель, на которую в целом во многом побоку, но вместе с ней выпустили RefusalBench, «который проверяет готовность модели быть полезной в различных сценариях, которые обычно недопустимы как в закрытых, так и в открытых моделях» — или по простому как часто модель отвечает на не безопасные вопросы. Что примечательно, GPT-5 и недавние GPT-OSS находятся в самом низу, что плохо, если вы хотите узнать, как сделать динамит в домашних условиях. Но зато OpenAI нельзя упрекнуть, что они говорят про AI Safety просто так, для прикрытия — во многих схожих бенчмарках их модели зачастую лидируют или хотя бы находятся в топе. OpenAI даже запустили конкурс (по стечению обстоятельств, он заканчивается сегодня!) на полмиллиона долларов, которые выплатят командам, предложившим лучшие способы обхода встроенного в модели механизма безопасности. Grok от Elon Musk в самом верху 🙂 — отвечает аж на половину таких запросов. Похоже, не зря недавно компанию покинул со-основатель Igor Babuschkin — он как раз выражал обеспокоенность вопросом безопасности ИИ.