S3 Vectors и будущее векторных БД Amazon свое хранилище S3 активно развивает:… — @leftjoin

S3 Vectors и будущее векторных БД Amazon свое хранилище S3 активно развивает: сначала добавили S3 Tables, а затем вот S3 Vectors. Теперь сервис поддерживает хранение векторных представлений и векторный поиск. В комплекте с новыми возможностями идут все плюсы AWS, включая низкую цену. 🔜 Руководитель департамента инжиниринга векторной БД Zilliz рассказал, почему появление такого серьезного конкурента — это не конец для игроков поменьше, а важный этап в развитии всей сферы. Векторный поиск — штука, конечно, полезная, но очень дорогая и требовательная к вычислительным мощностям. Это вынуждает разработчиков постоянно балансировать между производительностью и экономией. Milvus, на которой основана Zilliz, сначала хранила индексы в памяти, и хотя скорость и точность работы были впечатляющие, цена не радовала, — так что пришлось переезжать на диск. Это помогло сэкономить. Недорогие объектные хранилища вроде того же S3 — это логичный следующий этап развития технологии, когда объемы данных неуклонно растут и надо как-то масштабироваться, но при этом постараться не разориться. Один из молодых конкурентов Zilliz, TurboPuffer, на S3 и работает, и за счет этого предлагает клиентам приятный ценник. Правда, скорость обработки запросов страдает, но про это ниже. 🔜 В общем, на фоне того, в какую сторону пошло развитие векторных БД, решение AWS представить S3 Vectors выглядит вполне логично. Но при этом у сервиса есть серьезный недостаток по сравнению со специализированными векторными тулами — производительность. Задержка обработки запросов колеблется в диапазоне 200–700 мс, и пробить этот потолок довольно сложно. Скорость записи ограничена 2 МБ/с — для сравнения, у Milvus тот же показатель может достигать ГБ. Точность выполнения запросов на уровне 85-90% (иногда и ниже), и подкрутить этот параметр пока нельзя. Из-за этого для работы с большими, часто обновляющимися датасетами S3, конечно, не подойдет и какую-нибудь алгоритмическую рекомендательную систему с ним не построишь. Зато это хороший вариант для работы с «холодными» данными или приложений, где нагрузка на БД небольшая, запросов немного, а задержка ответа не критична. Это может быть даже прототип приложения — чтобы просто потестить идею за недорого, ограниченную производительность и функционал можно потерпеть. 🔜 И что это значит для рынка? А это значит, что он достиг нового этапа. Появление S3 Vectors со всеми плюсами и минусами, доказывает, что будущее за разделением пайплайнов для «горячих», «теплых» и «холодных» данные. Нет смысла со всеми работать одинаково, ведь где-то важнее сэкономить, а где-то можно и доплатить за производительность. Так что AWS не убивает рынок, а наоборот помогает ему развиваться и формировать новые ниши. А вы что думаете про S3 Vectors и будущее векторных БД в целом?

Из этого канала