В новую эпоху GenAI и LLM данные стали еще более ценным и важным ресурсом от которого зависит качество работы агентов. Разница лишь в том, что раньше экспертиза и участие в процессе человека компенсировала недостаток качества данных, а ИИ, наоборот, каждую ошибку в данных может усилить и экстраполировать не задавая вопросов и не испытывая сомнений. Раньше между сырой таблицей и бизнес-решением всегда стоял аналитик. Он знал, что в этой таблице выручка считается без возвратов, а в той - с возвратами. Помнил, что финансовый квартал кончается 28-го, а не 30-го. Умел сказать «это число выглядит странно, давайте перепроверим». Его экспертиза компенсировала кривизну данных. LLM-агент таким фильтром не является и не будет. Он не сомневается, не спрашивает коллегу, не перепроверяет. Берёт первую правдоподобную таблицу с похожим названием, пишет правдоподобный SQL, возвращает уверенный ответ. С отличным форматированием и без единого вопроса. В этом разборе Modern Data 101 хорошо показаны пять точек отказа на тривиальном вопросе «какой был рост выручки в прошлом квартале»: определение выручки, определение квартала, выбор источника среди трёх таблиц с одинаковым именем, актуальность данных, аудируемость ответа. Аналитик прошёл бы через эту же мину и заметил все пять. Агент проедет, не моргнув. Автор статьи, конечно, ведёт к своему продукту - он сооснователь компании, делающей платформу для тех самых дата-продуктов, которые он рекомендует строить. Понятный интерес. Но диагноз эпохи от этого интереса не зависит: проблема enterprise AI - это не проблема моделей. Модели за прошлый год выросли драматически, и проблема не ушла. Слой компенсации между данными и решением исчез, а слой источника никто не починил. Раньше можно было держать данные в относительно сыром состоянии, потому что между ними и реальностью была человеческая экспертиза. Теперь так нельзя. Хороший повод вернуться к скучным разговорам про data quality, контракты, lineage и семантический слой. Не потому что это модно, а потому что без этого автоматизация превращается в автоматизацию ошибок. https://moderndata101.substack.com/p/data-products-the-essential-context
В новую эпоху GenAI и LLM данные стали еще более ценным и важным ресурсом от…
Из этого канала
- #610"Услышал на днях метафору про ИИ, и особенно про вайбкодинг. Это казино! Ты не…
"Услышал на днях метафору про ИИ, и особенно про вайбкодинг. Это казино! Ты не пишешь код - покупаешь токены вместо фишек, жмёшь ""Генерировать"" вместо рычага…
- #611Linkedin забанил опрос про тимлида Спасибо всем проголосовавшим здесь! Отдельно…
Linkedin забанил опрос про тимлида Спасибо всем проголосовавшим здесь! Отдельно спасибо за результаты, они сильно отличаются от среднего эффекта, который…
- #614ClickHouse: must-have колоночная БД ClickHouse родился внутри Яндекса в 2009…
ClickHouse: must-have колоночная БД ClickHouse родился внутри Яндекса в 2009 году как движок для аналитики Яндекс.Метрики — одной из крупнейших систем…
- #608Прикольный слайд про суперциклы в IT. Интересно - какой будет следующий. Ваши…
Прикольный слайд про суперциклы в IT. Интересно - какой будет следующий. Ваши варианты?
- #607Какое-то время уже не в ВК
Какое-то время уже не в ВК