"Наткнулся в твитторе на интересный проект: Memvid. Это Python-библиотека, которая сохраняет большие объёмы текстовой информации в формате .mp4 (обычное видео), но при этом позволяет делать по этому видео-файлу семантический поиск, как по векторной базе данных. Под капотом оно кодирует текстовые фрагменты в эмбеддинги, которые затем сохраняются как кадры в видео. Получается компактный .mp4-файл, в котором каждый кадр — это фрагмент ""памяти"". Ну и естественно, ко всему вот этому безобразию за две строчки кода прикручиваются эти наши нейронки, чтобы удобно и быстро находить и доставать из этого видео файла нужную тестовую инфу через чат-интерфейс. Увидев эту библиотеку, вспомнил, что где-то уже видел что-то похожее. Погуглил и таки да, сама идея хранения данных в видео-файле не нова, вот тут, например уже описано что-то похожее, но там без нейронок, эмбеддингов и векторов все это работало, а видео-файл получался в 4 раза больше, чем кодируемая информация (у чуваков была цель использовать ютуб как бесплатное облачное хранилище). Ну и ютуб часто своей компрессией обсирал всю малину, руша данные. В Memvid же данные сжимаются (на гитхабе разработчик обещает сжатие данных до 10 раз), обращение к данным идет ""по смыслу"", а не побайтово и на компрессию ютуба ему в целом пофиг. Из минусов: не получится быстро добавить/удалить данные — нужно полностью перегенерировать весь файл. В итоге, с одной стороны вроде как и не особо-то оно нужно, а с другой — это удобный способ хранить большой объём текстовой информации в одном файле, быстро искать по смыслу и работать оффлайн. страница проекта на гитхабе"
"Наткнулся в твитторе на интересный проект: Memvid. Это Python-библиотека,…
Из этого канала
- #6540"Наконец-то нормальные бенчмарки. Чуваки на стриме заставили играть разные LLM…
"Наконец-то нормальные бенчмарки. Чуваки на стриме заставили играть разные LLM в ""Дипломатию)"".
- #6541Это гениально и суперкруто!!! Мне теперь СРОЧНО нужен такой чехол на телефон.…
Это гениально и суперкруто!!! Мне теперь СРОЧНО нужен такой чехол на телефон. Гугл нашёл мне подобное, но там текст ошибок на японском.
- #6543как объяснить гуманитариям, что такое gaussian splatting спер тут
как объяснить гуманитариям, что такое gaussian splatting спер тут
- #6533Киберпанк, который мы заслужили
Киберпанк, который мы заслужили
- #6532По традиции начал тестить новую модельку gemini (2.5 pro 06-05) на стихах.…
По традиции начал тестить новую модельку gemini (2.5 pro 06-05) на стихах. Стало интересно, сможет ли оно генерировать русские матерные частушки.