💡 Наш мультиязычный SWE Bench разоблачает ИИ-модели — кто провалит тест? Представьте студента, которого гоняют на экзаменах только по тем вопросам, которые он выучил. Честную ли оценку он получит? То же самое сейчас происходит с области LLM: большинство популярных open-source датасетов и бенчмарков уже входят в обучающие выборки современных моделей, поэтому результаты оценки их работы не совсем объективные. И мы нашли решение! Наш новый SWE Bench, с поддержкой множества языков программирования, протестировал ведущие ИИ, включая Deepseek и Llama — кто справился, а кто дал слабину? Честные и независимые результаты проверки смотрите на Хабре: 😇 habr.com/ru/articles/916388/ @Doubletapp #dt_llm
💡 Наш мультиязычный SWE Bench разоблачает ИИ-модели — кто провалит тест?…
Из этого канала
- #287Как измерить качество ИИ-ассистента? Всем привет это Серега. Мы…
Как измерить качество ИИ-ассистента? Всем привет это Серега. Мы специализируемся не только на интеграции существуюших решений в области больших языковых…
- #289"В тяжелейшем голосовании, в котором менялись лидеры, в котором все варианты…
"В тяжелейшем голосовании, в котором менялись лидеры, в котором все варианты шли ноздря в ноздрю, победила Вера Полозкова.
- #290На то, как сложилась моя текущая карьера, мышление, мироощущение и вообще жизнь…
На то, как сложилась моя текущая карьера, мышление, мироощущение и вообще жизнь повлияло занятие олимпиадной математикой в школе у Олега Ивановича Южакова (ну,…
- #285На прошлой неделе стало известно, что частью российского Яндекса (10%) стала…
На прошлой неделе стало известно, что частью российского Яндекса (10%) стала владеть головная структура Тинькофф банка (ныне Т-Банк).
- #284Итак, что мы сегодня поняли: 1) Бабло в итоге побеждает всё (3 млрд евро или…
Итак, что мы сегодня поняли: 1) Бабло в итоге побеждает всё (3 млрд евро или чуть больше) 2) Если долго мучиться — что-нибудь получится (14 лет) 3) Если долго…