"Enterprise RAG Challenge: Updated question generator Новая версия опубликована тут. Она использует расширенный dataset с метаданными всех PDF (извлечены при помощи gpt-4o-mini + SO) - dataset_v2.json. Он добавлен в repository, чтобы можно было генерировать вопросы локально. А сами PDF файлы под задачу уже выложим во время RAG Challenge. Обращаем внимание на схему ответа: ``` class SourceReference(BaseModel): pdf_sha1: str = Field(..., description=""SHA1 hash of the PDF file"") page_index: int = Field(..., description=""Physical page number in the PDF file"") class Answer(BaseModel): question_text: str = Field(..., description=""Text of the question"") kind: Literal[""number"", ""name"", ""boolean"", ""names""] = Field(..., description=""Kind of the question"") value: Union[float, str, bool, List[str], Literal[""N/A""]] = Field(..., description=""Answer to the question, according to the question schema"") references: List[SourceReference] = Field([], description=""References to the source material in the PDF file"") class AnswerSubmission(BaseModel): answers: List[Answer] = Field(..., description=""List of answers to the questions"") team_email: str = Field(..., description=""Email that your team used to register for the challenge"") submission_name: str = Field(..., description=""Unique name of the submission (e.g. experiment name)"") ``` Теперь нужно не только извлечь правильный ответ по схеме, но и упомянуть страницы, с которых он был извлечен - в качестве доказательства. Это как раз та самая работа со ссылками и цитатами, которую очень любит корпоративный сегмент. В начале следующей неделе я выложу информацию по submission API, а в четверг можно будет сделать тестовый dry run. Ваш, @llm_under_hood 🤗"
"Enterprise RAG Challenge: Updated question generator Новая версия опубликована…
Из этого канала
- #506"Как работать с информацией при построении своих RAG систем? Я сейчас собираю…
"Как работать с информацией при построении своих RAG систем? Я сейчас собираю материал для дополнительного видео к курсу, чтобы ответить на вопрос ""Ну собрали…
- #507AI in Coding или эксперимент с агентами Если кратко, у нас на одном проекте…
AI in Coding или эксперимент с агентами Если кратко, у нас на одном проекте стоит повторяющаяся задача. Нужно извлекать структурированную информацию из сайтов.
- #508Coding for AI - Как я быстро запускаю сервера с AI сервисами Меня очень радует,…
Coding for AI - Как я быстро запускаю сервера с AI сервисами Меня очень радует, когда в небольшой слайс времени и внимания получается упихнуть заметный объем…
- #504Старожилы канала поймут и этот мем и вот этот комментарий в чате: Нам схема с…
Старожилы канала поймут и этот мем и вот этот комментарий в чате: Нам схема с русскими подписями в кейсе + 8% к точности дала Ваш, @llmunderhood 🤗 PS: Если…
- #503Enterprise RAG Challenge - новости (1) Мы уже получили более 220 заявок на…
Enterprise RAG Challenge - новости (1) Мы уже получили более 220 заявок на участие во втором раунде! Было бы больше, но вчера в Кёльне была авария у…