"Разработка с AI в начале 2025. Выбор LLM (3/3) Локальность Это когда вы… — @etechlead

"Разработка с AI в начале 2025. Выбор LLM (3/3) Локальность Это когда вы скачиваете веса модели (если они доступны) и запускаете её локально, на своем железе. Так вот, по всей видимости, на текущий момент это не особо оправданно, если только у вас не какой-то особенный use case, и вот почему: * модели становятся огромными - к примеру, вышедший на днях DeepSeek v3 требует 671GB GPU RAM для работы (самая продвинутая ""домашняя"" видеокарта на текущий момент имеет объем видеопамяти 24GB); * онлайн-инференс становится всё дешевле - тот же DeepSeek v3 стоит 28 центов за 1м сгенерированных токенов; * серверные GPU становятся дороже, но при этом скорость их работы возрастает в разы с каждым новым поколением. Такими темпами даже электричество для работы, скажем, домашней RTX3090 становится дороже, чем использование онлайн-моделей, не говоря уж о цене сборки системы для запуска современных моделей на ее основе :) Впрочем, тут есть и другой тренд: постепенное улучшение локальных моделей - они становятся умнее и быстрее, даже на тех размерах, которые можно запустить на домашнем железе. В какой-то момент локальные модели станут достаточно хороши, чтобы тягаться в некоторых задачах с современными большими коммерческими моделями навроде ChatGPT 4o или Claude 3.5 Sonnet, однако: * до этого может пройти год-другой - это ооочень долго при современной скорости развития AI; * к тому времени облачные модели могут достичь какой-то фантастической производительности и качества; * скорее всего контекст локальных моделей так и останется коротким, т.к. мы помним из прошлого поста, что __контекст длиной N требует N^2 GPU RAM__. С локальными моделями, безусловно, интересно возиться, если у вас есть страсть к администрированию и некоторая гиковость (__каюсь, сам грешен__), но на текущий момент в большинстве случаев это лишено практического смысла (для целей написания кода, уж точно). К чему присматриваться DeepSeek V3 - очень дешевая и умная модель, которая вот практически только-только вышла и по некоторым тестам превосходит Claude 3.5 Sonnet. На бумаге единственный её существенный минус - контекст в 64k токенов против 200k у Claude 3.5 Sonnet, так что нужно будет посмотреть, как она себя будет вести на рабочих задачах. Однозначно буду пробовать :) Семейство моделей-ризонеров - ChatGPT o3, Qwen QwQ. Пока что не вышедшая в паблик ChatGPT o3 по предварительным тестам - лучшая модель по ризонингу, так что будет интересно проверить её в работе над сложными задачами. Плюс, стоит надеяться на то, что стоимость таких моделей будет падать, а скорость инференса - расти, так что они видятся перспективными для написания кода в будущем. #ai #work #development"

Из этого канала