В очередной раз увидел, как одна модель смогла исправить баг, который друге не могли. Такое происходит постоянно, и часто истории продаются как «блин вот из-за такого видимо придётся переходить с модели X на Y». При этом я во многом не считаю такие примеры показательными. Давайте подумаем почему. Во-первых, навыки модели во многом обусловлены данными и задачами, на которых их тренируют. Из-за этого даже модель, которая лучше в среднем по широкому набору задач может проигрывать в отдельных подзадачах каки-то доменов. Вот одна компания обучала модель искать баги одним пайплайном с такой-то инструкцией, и LLM научилась, а у другой было гораздо более обширно, но конкретно такой аспект не выучился. Во-вторых, модели недетерминированы, и что не решается 1 запуском может решаться 3, 5 или 10 попытками. Может просто так получиться, что в запросе к другой модели чуть больше повезло. В-третьих, все такие тесты подвержены проблеме восприятия. Когда новая модель решает что-то, что не решила старая, то мы автоматически предполагаем, что она решила бы всё, что у меня решала предыдущая. С такой точки зрения кажется, что нужно переходить на вот эту новую модель — она ведь ничем не хуже, а только лучше. Но это не так: все задачи, которые у нас сразу сработали на первой, не обязательно работают на второй. И сменив модель можно быстро попасть в ситуацию, где уже привычные вещи не работают (кстати, поэтому менять модели сложно — вроде привык, а вот какая-то достаточно простая штука не работает, и всё, кажется, что супер-тупая; хотя надо просто по другому промптить). Такая картина бывает даже с опенсурсом, когда условный DeepSeek решает проблему, которую не смог решить Opus. Является ли один-два таких примера показательными? Конечно, нет. Что может быть каким-никаким прокси сигналом — это сколько таких заявлений в целом появляется при релизе по отношению к предыдущим (и важно делать поправку на аудитории моделей). Но поскольку такую аналитику делать никто не будет, то и говорить нечего 🤷♂️ А для конкретного пользователя действительно может оказаться, что под его стак (язык + библиотеки + LLM-клиент + как он промптит + что угодно) одна модель лучше другой, если подобные ситуации повторяются часто.
В очередной раз увидел, как одна модель смогла исправить баг, который друге не…
Из этого канала
- #3582Сегодня на Лондонском марафоне произошло невероятное: марафонскую дистанцию…
Сегодня на Лондонском марафоне произошло невероятное: марафонскую дистанцию впервые пробежали менее, чем за 2 часа, при этом сразу 2 человека.
- #3583Не коррозия, а «хорошо известное поведение металла». Сейчас будет урок…
Не коррозия, а «хорошо известное поведение металла». Сейчас будет урок европейского космического новояза и это абсолютно феерическая история.
- #3586🤣 Микрофон адвоката Илона Маска выключался четыре раза за время его…
🤣 Микрофон адвоката Илона Маска выключался четыре раза за время его вступительной речи по делу «Маск против OpenAI».
- #3580Neuralink напоминают, что они работают над прототипом для управления робо-рукой…
Neuralink напоминают, что они работают над прототипом для управления робо-рукой силой мысли (тот же чип в голове, что и для управления компьютером).
- #3579Через неделю начинается судебный процесс Musk v Altman, в ходе которого их…
Через неделю начинается судебный процесс Musk v Altman, в ходе которого их обоих, а также многих директоров OpenAI и Microsoft, вызовут на трибуну для ответов…