Я потихоньку строю персонального ассистента – rag систему по материалам о программной инженерии и инженерии вообще, которые накопились за последние пять лет и продолжают копиться пока я стучу по кнопкам. Проблема конечно дефолтная - что то в pdf, что то уже в маркдаун (98% моих записей), что то сохранено html линками или файлами. Если с pdf и маркдауном все понятно (мы целимся в последний, его удобно рубить на чанки и прокручивать в вектора), то с html надо повозиться чуть больше. Сначала я взял майкрософтовский maritdown и он оказался очень странным именно для html - вытаскивает в какие то корявые таблицы которые придется руками или через LLM приводить в порядок. Они еще так опрометчиво в последних версиях на 2>=numpy завязались, лол. Так а нафиг тогда? Знакомьтесь, сегодня хороший опенсорс: https://github.com/unclecode/crawl4ai Шустренько так работает, вполне себе норм достает маркдаун, все что надо. Нет проблем прожевать локальные файлы, или html. Будем молотить и те и другие. Потом расскажу больше про персональный rag, может вообще отдам mcp сервером :)
Я потихоньку строю персонального ассистента – rag систему по материалам о…
Из этого канала
- #287Наверное самые лучшие мысли в этой статье: 1) LLM хороши для быстрого…
Наверное самые лучшие мысли в этой статье: 1) LLM хороши для быстрого прототипирования, и то что большие модели, нужно заменять на малые (тюнить os / обучать…
- #288Китайцы выкатили очередной Хуньян резонер, турбо декодер блин! Попробуй тут…
Китайцы выкатили очередной Хуньян резонер, турбо декодер блин! Попробуй тут https://llm.hunyuan.tencent.com/#/chat/hy-t1
- #289Попросил ChatGPT нарисовать как он видит свои мозги будущего, работающие на…
Попросил ChatGPT нарисовать как он видит свои мозги будущего, работающие на базе квантовых вычислений под криогенными температурами.
- #285Вот и кончилась неделя интесива про LLM трансформеры и все что вокруг них от…
Вот и кончилась неделя интесива про LLM трансформеры и все что вокруг них от Google/Kaggle. тут написал небольше резюме по 3-ему и оставшимся дням.
- #283"Короче, сижу я такой наслаждаюсь своей ноотропной таблеткой с Шен Пуэром и…
"Короче, сижу я такой наслаждаюсь своей ноотропной таблеткой с Шен Пуэром и начинаю затаскивать в наш проект локальный энкодер семантик роутера (чтобы каждый…