Разработка
Сделаю прототип, который принимает на вход документ в формате markdown, никаких затрат на конвертацию, сразу тестируем функционал нужный клиенту 🚀
Приложение выглядит как страница с одним полем ввода и кнопкой «🔮Проанализировать!». Тестовые данные предоставленные клиентом дают неплохой, с точки зрения разработчика, результат. Можно идти на демо.
Демо с клиентом
Поднимаем на ноуте сборку, выкидываем через ngrok в большой интернет, показываем клиенту, первый ответ: чот фигня получается, LLM путает номера пунктов, часть параграфов не видит. Аааа, ну как так. Смотрим, что там анализировалось, ой, несмотря на то, что перед демо сказали, что надо копипастить текст в markdown, документы со сбитой нумерацией параграфов, больше похоже на копипасту из docx. Пробуем еще раз, да все, верно, даже на демо клиенту тяжеловато конвертить доки в гиковский маркдаун.
Что делаем?
Забираем на себя задачу конвертацию документов [ docx, pdf ] → markdown.
Варианты:
1. Находим SaaS, который за вменяемые деньги может этим заниматься и отдавать данные в нужном нам формате.
—
https://monkt.com/#pricing —
https://products.aspose.app/words/conversion/docx-to-md ❓Вопрос: а в RU-сегменте кто этим занимается? Оплата по безналу и вот это все?
2. Поднимаем свой сервис конвертации docx, pdf в markdown
—
https://github.com/docling-project/docling —
https://github.com/adithya-s-k/marker-apiПервый вариант заманчивый, но потратив порядка тридцати минут уверенности в том, что стоит в эту сторону копать поубавилось.
Пробуем пойти по второму варианту, с пол-пинка в докере поднимается
https://github.com/docling-project/docling-serveПросим у клиента тестовый набор документов, проверяем на них, что конвертация доклингом дает хорошие результаты.
#разработка #markdown