Всплыла довольно скандальная история про Nvidia и пиратство книг для обучения ИИ Для начала контекст. В начале 2024 года группа авторов подала иск против Nvidia. Они утверждали, что компания использует для обучения моделей Books3 – пиратский датасет с сотнями книг. NVIDIA, к слову, тогда заявила, что это попадает под «добросовестное использование» 😏 С тех пор судебный процесс продолжается, и теперь, в рамках расширенного иска, в деле внезапно появилась переписка между сотрудником NVIDIA и Anna’s Archive (это пиратская теневая библиотека, в которой собраны в том числе защищенные книги и статьи). Что было в переписке: – Сотрудник из команды по стратегии данных NVIDIA обратился к Anna’s Archive и спросил «что библиотека может предложить, и как получить быстрый доступ к корпусу книг». – После этого, что самое смешное, Anna’s Archive сами предупредили NVIDIA, что данные являются незаконно полученными и (внимание) попросили подтвердить, действительно ли у сотрудника есть внутреннее разрешение на работу с таким материалом. – Через неделю руководство NVIDIA дало зеленый свет, оправдавшись давлением конкуренции. После этого Anna’s Archive предоставили доступ. Точные объемы данных (как и то, сколько Nvidia за них заплатили) неизвестны. Пишут, что их было около 500 терабайт – а это миллионы книг. На этом, кстати, веселье не кончается: авторы утверждают, что Nvidia, скорее всего, использовала также другие аналогичные библиотеки типа LibGen, Sci-Hub, Z-Library и даже распространяла скрипты, якобы позволяющие корпоративным клиентам автоматически скачивать такие датасеты (но это еще предстоит доказать).
Всплыла довольно скандальная история про Nvidia и пиратство книг для обучения…
Из этого канала
- #8640Ваша ежедневная порция обещаний от стартаперов, сэр: Дарио Амадеи заявил, что…
Ваша ежедневная порция обещаний от стартаперов, сэр: Дарио Амадеи заявил, что вся разработка ПО будет автоматизирована в ближайший год По сути, Дарио говорит о…
- #8641Прошло чуть больше месяца с момента запуска DS Lab – облачной IDE с большим…
Прошло чуть больше месяца с момента запуска DS Lab – облачной IDE с большим выбором GPU от команды Data Secrets Все это время сервис продолжает активно…
- #8642Черный день для Cursor: Anthropic выкатили полноценное расширение для Claude…
Черный день для Cursor: Anthropic выкатили полноценное расширение для Claude Code в VS Code Выглядит привычно: ассистент сбоку, подсказки через diff,…
- #8638xAI опенсорснули код рекомендательной системы X Маск пообещал, что репозиторий…
xAI опенсорснули код рекомендательной системы X Маск пообещал, что репозиторий будет обновляться примерно раз в месяц.
- #8636Инженера уволили (?) из xAI через пару дней после выхода его большого интервью…
Инженера уволили (?) из xAI через пару дней после выхода его большого интервью о компании Пока информацию именно об увольнении не подтвердили: сам парень…