Для RAG систем — изучите (https://github.com/QuivrHQ/MegaParse). Вдруг подойдет. Бесплатный, открытый софт для работы с PDF файлами (и другими тоже, Word например). Написан на Питоне, не наш стек, к сожалению 🙁
P.s. если вы не поняли — извлекает данные из файлов…
Русский ИТ бизнес (https://t.me/bezsmuzi)