Нас ведь скоро заменят AI агенты? Сегодня попался репозиторий для оценки работы агента для инжиниринга данных: [ADE-bench[^1]](https://github.com/thedatamates/ade-bench/)__ — это фреймворк для оценки работы ИИ-агентов в задачах аналитика данных. Фреймворк состоит из нескольких основных частей: * изолированных окружений с dbt-проектами и базами данных, которые предоставляются агенту; * методов для изменения или «повреждения» этих окружений перед передачей агенту; * песочниц, в которых каждая задача выполняется независимо; * методов оценки результатов работы агента по сравнению с ожидаемыми результатами. На данный момент каждая сессия ADE-bench состоит из одного dbt-проекта и базы данных. Однако фреймворк можно расширить, добавив поддержку нескольких окружений, множества баз данных и других инструментов дата-инжиниринга, чтобы приблизить работу к реальным условиям аналитиков и инженеров данных. Введение в работу ADE-bench ADE-bench состоит из трёх основных компонентов: * Задачи (Tasks) * Общие базы данных (Shared databases) * Общие dbt-проекты (Shared dbt projects) Каждая задача — это запрос, который может быть выдан агенту. Хотя задача может включать несколько критериев оценки (например, нужно обновить несколько моделей или убедиться, что SQL-запрос и конфигурация материализации корректны), именно задача является основной единицей оценки в ADE-bench. Как выполняется задача Когда ADE-bench получает запрос на выполнение задачи, происходит следующее: 1. Копирование проекта в песочницу. ADE-bench создаёт песочницу (Docker-контейнер) для задачи, загружает туда соответствующий проект и создаёт изолированное окружение для связанной базы данных (см. раздел «Как работают базы данных» ниже). 2. Создание первого снимка. После настройки проекта ADE-bench делает снимок всех файлов, чтобы зафиксировать изменения, которые появятся позже (от подготовительных скриптов и действий агента). 3. Запуск дополнительного скрипта настройки. После первого снимка ADE-bench запускает специальные скрипты задачи. Они могут изменять проект, обновлять данные в базе или адаптировать проект под другой тип базы данных (см. «Общие проекты между базами данных»). 4. Создание второго снимка. Фиксируются изменения, внесённые на предыдущем шаге. 5. Передача окружения агенту. Агент получает доступ к окружению и пытается выполнить задачу. 6. Создание финального снимка. Когда агент сообщает о завершении, ADE-bench делает третий снимок проекта. 7. Оценка результата. Изменения проверяются тестами, указанными в задаче. Если все тесты пройдены, задача считается выполненной.__ __ Примечание: ADE-bench может автоматически сравнивать таблицы. Например, если задача — создать правильную таблицу `dim_users`, её можно определить в конфигурации задачи, и тест на сравнение будет сгенерирован автоматически. 8. Очистка песочницы. После записи результатов ADE-bench удаляет контейнер.__
Нас ведь скоро заменят AI агенты? Сегодня попался репозиторий для оценки работы…
Из этого канала
- #5473AI, который мы заслужили. Отличный пивот у OpenAI 👙
AI, который мы заслужили. Отличный пивот у OpenAI 👙
- #5474⚫️ Surfalytics VS Roadmappers Не знаю, куда смотрит Дима, но я смотрю в прошлое…
⚫️ Surfalytics VS Roadmappers Не знаю, куда смотрит Дима, но я смотрю в прошлое — в то время, когда учился на DataLearn. Моя фотка — это оммаж на фото Димы.
- #5478👨🦳Как мы раньше делали резюме? У нас был/есть Word (Google) документ, который…
👨🦳Как мы раньше делали резюме? У нас был/есть Word (Google) документ, который мы меняем раз в год. Иногда, мы можем иметь несколько копий с разными flavours.
- #5471ML-квалификация — сегодня в 16:00 Яндекс открыл регистрацию на Yandex Cup —…
ML-квалификация — сегодня в 16:00 Яндекс открыл регистрацию на Yandex Cup — международный чемпионат с призовым фондом 12 млн рублей и финалом в Стамбуле.
- #5470Поиграл я в Airflow 3.1 на AWS Elastic Container Service. Кое-как заработало,…
Поиграл я в Airflow 3.1 на AWS Elastic Container Service. Кое-как заработало, но на каждый “а вот еще бы хотелось” приходилось тратить много времени.