"Enterprise RAG Challenge: Updated question generator Новая версия опубликована тут. Она использует расширенный dataset с метаданными всех PDF (извлечены при помощи gpt-4o-mini + SO) - dataset_v2.json. Он добавлен в repository, чтобы можно было генерировать вопросы локально. А сами PDF файлы под задачу уже выложим во время RAG Challenge. Обращаем внимание на схему ответа: ``` class SourceReference(BaseModel): pdf_sha1: str = Field(..., description=""SHA1 hash of the PDF file"") page_index: int = Field(..., description=""Physical page number in the PDF file"") class Answer(BaseModel): question_text: str = Field(..., description=""Text of the question"") kind: Literal[""number"", ""name"", ""boolean"", ""names""] = Field(..., description=""Kind of the question"") value: Union[float, str, bool, List[str], Literal[""N/A""]] = Field(..., description=""Answer to the question, according to the question schema"") references: List[SourceReference] = Field([], description=""References to the source material in the PDF file"") class AnswerSubmission(BaseModel): answers: List[Answer] = Field(..., description=""List of answers to the questions"") team_email: str = Field(..., description=""Email that your team used to register for the challenge"") submission_name: str = Field(..., description=""Unique name of the submission (e.g. experiment name)"") ``` Теперь нужно не только извлечь правильный ответ по схеме, но и упомянуть страницы, с которых он был извлечен - в качестве доказательства. Это как раз та самая работа со ссылками и цитатами, которую очень любит корпоративный сегмент. В начале следующей неделе я выложу информацию по submission API, а в четверг можно будет сделать тестовый dry run. Ваш, @llm_under_hood 🤗"