Я потихоньку строю персонального ассистента – rag систему по материалам о программной инженерии и инженерии вообще, которые накопились за последние пять лет и продолжают копиться пока я стучу по кнопкам. Проблема конечно дефолтная - что то в pdf, что то уже в маркдаун (98% моих записей), что то сохранено html линками или файлами. Если с pdf и маркдауном все понятно (мы целимся в последний, его удобно рубить на чанки и прокручивать в вектора), то с html надо повозиться чуть больше. Сначала я взял майкрософтовский maritdown и он оказался очень странным именно для html - вытаскивает в какие то корявые таблицы которые придется руками или через LLM приводить в порядок. Они еще так опрометчиво в последних версиях на 2>=numpy завязались, лол. Так а нафиг тогда? Знакомьтесь, сегодня хороший опенсорс: https://github.com/unclecode/crawl4ai Шустренько так работает, вполне себе норм достает маркдаун, все что надо. Нет проблем прожевать локальные файлы, или html. Будем молотить и те и другие. Потом расскажу больше про персональный rag, может вообще отдам mcp сервером :)