"А что у нас сейчас с актуальными модельками для кодинга? Наткнулся на один интересный бенчмарк моделек для кодинга под названием LiveCodeBench. На этот раз энтузиасты собрали в кучу задачки с LeetCode, CodeForces и AtCoder и дали их порешать LLM'кам. И вот тут интересное - есть мнение, что бенчмарки, в которых тестовые данные публично известны, не очень репрезентативны. Создатели бенчмарка тоже это понимали, поэтому прямо в UI добавили фильтр на задачи по дате (т. е. можно выбрать наиболее ""свежие"" задачи, которые большинство LLM просто физически не могли знать). И тем не менее, из результатов этого бенчмарка мы видим, что, например, в категории Hard на всех задачах лучший показатель у Claude Opus (и это всего 4.9!). Еще интересно, что последняя версия GPT-4 Turbo решает примерно в 2 раза больше задачек уровня Medium, чем Claude Opus. Опенсорсная и мелкая CodeQwen15-7B-Chat при этом показывает результаты на равне с платной Claude Haiku (а на задачах Medium и Hard даже обгоняет их и может сравниться с Claude Opus). Ссылка на бенчмарк: https://livecodebench.github.io/leaderboard.html Напоминаю, что 7B модельки (в кванте Q8 и меньше) легко запускаются на макбуке с M процессорами и 18+ GB shared memory, либо просто на мощных ноутах на винде (даже с интегрированной GPU). А запустить это проще всего в LM Studio. Еще, из интересного: только что IBM выпустила свои новые модели для кодинга под названием Granite, у них тоже впечатляющие результаты и их уже даже можно погонять самостоятельно в LM Studio. В LiveCodeBench этих моделей пока нет, но я уже отправил им Issue, чтоб добавили."
"А что у нас сейчас с актуальными модельками для кодинга? Наткнулся на один…
Источник
https://t.me/ai_driven/12Канал AI-Driven Development. Родион Мостовой · опубликовано 9 мая 2024 г.
Из этого канала
- #14"Открытая модель WizardLM-2 8x22B в задачах на кодинг оказалась на уровне…
"Открытая модель WizardLM-2 8x22B в задачах на кодинг оказалась на уровне GPT-4! Помните я недавно рассказывал про супер-пупер модельку llama-3-70b? Так вот,…
- #15"Строго типизированные языки программирования могут стать популярнее благодаря…
"Строго типизированные языки программирования могут стать популярнее благодаря LLM Есть такой подкаст «Бреслав и Ложечкин».
- #18"Нешаблонное собеседование Junior .NET разработчика без опыта работы Ненадолго…
"Нешаблонное собеседование Junior .NET разработчика без опыта работы Ненадолго отступлю от темы AI и вернусь к теме .NET и собеседований.
- #11Самое интересное из AI в контексте разработки на текущий момент. Главная…
Самое интересное из AI в контексте разработки на текущий момент. Главная новость, которую действительно можно выделить из общего фона - это, конечно же,…
- #10Прямо к моему дню рождения Stephen Toub и Scott Hanselman сделали отличный…
Прямо к моему дню рождения Stephen Toub и Scott Hanselman сделали отличный подарок - выкатили видео на YouTube, в котором за час с хвостиком им удалось на…