Давайте добавим колонку MED в LLM бенчмарк! 🧬🤝 Текущая версия моего LLM бенчмарка основана на кейсах внедрения в бизнес-проекты. Каждый eval в бенчмарке - это небольшой тест из реального проекта, одна клеточка на error map. Бенчмарком пользуются команды при выборе моделей под свои задачи. Чаще всего их интересуют не самые мощные модели, а самые маленькие модели, которые смогли забраться достаточно высоко. Например, Qwen3-32B или gpt-oss-20b А давайте, сделаем этот бенчмарк полезным не только для бизнеса, но еще и для команд, которые внедряют AI/LLM в медицине! Для этого мне нужны небольшие примеры промптов, маленькие кусочки задач. В идеале это даже такие кусочки, которые должны работать (и с которыми справится человек), но которые у вас работают не идеально. Естественно, я эти промпты и задачи (как и остальные кейсы из бенчмарка), не буду публиковать. Но лучше, если они будут анонимизированы. Можно использовать примеры из OSS MedTech датасетов вроде MIMIC-IV on FHIR, RadEvalX, ReXErr-v1 итп Можно писать мне в личку в формате. __Ринат, вот у нас в продукте есть такой шаг, где от модели требуется сделать …. (описание чего и зачем). Можно проиллюстрировать таким кейсов. Мы подаем LLM на вход такой текст и такую SGR/SO структуру (если есть). Правильный ответ выглядит так, а у нас почему-то модель показывает X, Y или вообще несет пургу. Интересно было бы посмотреть, как бы ты подправил тут SGR. И вообще какие модели из бенчмарка хорошо справляются с подобной задачей.__ Если получится набрать разных MED кейсов, тогда я с удовольствием встрою их в бенчмарк и добавлю их в MED колонку. Вот и увидим, так ли хороша MedGemma, как ее хвалят. Ваш, @llm_under_hood 🤗 PS: Не обязательно встраивать в бенчмарк именно ваш пример/eval. Можно посмотреть вместе и сформировать полностью синтетический вариант.
Давайте добавим колонку MED в LLM бенчмарк! 🧬🤝 Текущая версия моего LLM…
Из этого канала
- #678"Самая главная фишка LLM - это то, как они меняют саму экономику работы.…
"Самая главная фишка LLM - это то, как они меняют саму экономику работы. Вместо того, чтобы делать все руками, можно выделять простые и повторяющиеся вещи и…
- #679DDD + LLM + SGR = ❤️🔥 Сюрприз от организаторов KanDDDinsky в Берлине! В…
DDD + LLM + SGR = ❤️🔥 Сюрприз от организаторов KanDDDinsky в Берлине! В четверг, в одном трэке с Эриком Эвансом, я расскажу несколько историй успешных…
- #680Открыта регистрация на Enterprise RAG Challenge 3! Все, как в прошлые ERC…
Открыта регистрация на Enterprise RAG Challenge 3! Все, как в прошлые ERC соревнования, но только вместо анализа сложных PDF - будем пилить агентов/чатботов.
- #676На чем написан ChatGPT под капотом? Пара инсайтов от инженеров OpenAI Контакты…
На чем написан ChatGPT под капотом? Пара инсайтов от инженеров OpenAI Контакты и связи нашего коммьюнити обширны 🤝.
- #675"Видео доклада ""Schema-guided reasoning: как заставить LLM быть умнее"" Эту…
"Видео доклада ""Schema-guided reasoning: как заставить LLM быть умнее"" Эту запись сделали и выложили ребята из @MadMLTalks…