"Наткнулся в твитторе на интересный проект: Memvid. Это Python-библиотека,… — @NeuralShit

"Наткнулся в твитторе на интересный проект: Memvid. Это Python-библиотека, которая сохраняет большие объёмы текстовой информации в формате .mp4 (обычное видео), но при этом позволяет делать по этому видео-файлу семантический поиск, как по векторной базе данных. Под капотом оно кодирует текстовые фрагменты в эмбеддинги, которые затем сохраняются как кадры в видео. Получается компактный .mp4-файл, в котором каждый кадр — это фрагмент ""памяти"". Ну и естественно, ко всему вот этому безобразию за две строчки кода прикручиваются эти наши нейронки, чтобы удобно и быстро находить и доставать из этого видео файла нужную тестовую инфу через чат-интерфейс. Увидев эту библиотеку, вспомнил, что где-то уже видел что-то похожее. Погуглил и таки да, сама идея хранения данных в видео-файле не нова, вот тут, например уже описано что-то похожее, но там без нейронок, эмбеддингов и векторов все это работало, а видео-файл получался в 4 раза больше, чем кодируемая информация (у чуваков была цель использовать ютуб как бесплатное облачное хранилище). Ну и ютуб часто своей компрессией обсирал всю малину, руша данные. В Memvid же данные сжимаются (на гитхабе разработчик обещает сжатие данных до 10 раз), обращение к данным идет ""по смыслу"", а не побайтово и на компрессию ютуба ему в целом пофиг. Из минусов: не получится быстро добавить/удалить данные — нужно полностью перегенерировать весь файл. В итоге, с одной стороны вроде как и не особо-то оно нужно, а с другой — это удобный способ хранить большой объём текстовой информации в одном файле, быстро искать по смыслу и работать оффлайн. страница проекта на гитхабе"

Из этого канала