"Какая-то бесконечная неделя обсуждения DeepSeek. Я решил, что иногда буду… — @addmeto

"Какая-то бесконечная неделя обсуждения DeepSeek. Я решил, что иногда буду делать вот такие подборки с пачкой разных новостей в одном посте. Поставьте там звездочку, если считаете, что так нормально будет. В Wired обзор того, как работать с DeepSeek. Для ленивых — оно работает и даже бесплатно, но галлюцинации постоянные, и по набору важных пользовательских фич (таких как канвас или память), конечно, уступает ChatGPT. Вообще, откуда такая истерика — непонятно, рассказы про то, что deepseek превосходит топовые модели — это же чистый маркетинг. На деле это правда крутая для опенсорса модель, но все реальные тесты пока показывают — она хорошая, но совсем не уровня o1 или Sonet. Nvidia называет работу DeepSeek ""отличным достижением в области ИИ"", но при этом подчеркивает, что ""для вывода требуется значительное количество графических процессоров NVIDIA и быстрые сети"". И это правда. С точки зрения экономики выход такой модели невероятно выгоден в долгосроке для Nvidia. При этом все данные DeepSeek собираются и хранятся, разумеется, в Китае. Ну, в этом ничего удивительного нет, ведь китайцы не шпионят, правда? Сэм Альтман говорит, что R1 от DeepSeek — это ""впечатляющая модель, прямо топ, особенно за свои деньги"". Да, пока главное достижение DeepSeek — очень дешевый инференс модели. DeepSeek утверждает, что для обучения R1 использовались чипы Nvidia H800, доступные в Китае до октября 2023 года, и в блумберге думают, что ""будущим моделям может помешать экспортный контроль США"". На деле есть довольно много более быстрых и не обрезанных карт, которые получаются серым импортом из Европы (редко) и стран третьего мира (гораздо чаще). В WSJ неплохой рассказ про Лян Вэньфена, математика, который основал хедж-фонд High-Flyer в 2015. Хедж-фонд использовал много математики, алгоритмов, но это не всегда помогало, например, в 2021 пришлось даже извиняться за андерперформанс ввиду недооценки некоторых новых бизнесов, в частности, ИИ. В 2024 году High-Flyer выпустил свой побочный продукт — серию моделей DeepSeek. В NYT статья о том, что DeepSeek внезапно опроверг типичное мнение ""больше значит лучше"", потому что смог ""всего за 6 миллионов построить модель, конкурирующую с мировыми топами"". На деле подсчет стоимости обучения в 6 млн — это чья-то неудачная шутка. В этой сумме не учтена ни цена видеокарт, ни цена разработчиков, ни тот факт, что с первого раза получить такую модель невозможно. А если посчитать всё сразу, то получится, что DeepSeek вложил в обучение модели вполне сравнимо с вложениями фейсбук в LLama. https://www.nytimes.com/2025/01/27/technology/deepseek-ai-china.html"

Из этого канала