Garbarage in → garbarage out
Разработка
Сделаю прототип, который принимает на вход документ в формате markdown, никаких затрат на конвертацию, сразу тестируем функционал нужный клиенту 🚀
Приложение выглядит как страница с одним полем ввода и кнопкой «🔮Проанализировать!». Тестовые данные предоставленные клиентом дают неплохой, с точки зрения разработчика, результат. Можно идти на демо.

Демо с клиентом
Поднимаем на ноуте сборку, выкидываем через ngrok в большой интернет, показываем клиенту, первый ответ: чот фигня получается, LLM путает номера пунктов, часть параграфов не видит. Аааа, ну как так. Смотрим, что там анализировалось, ой, несмотря на то, что перед демо сказали, что надо копипастить текст в markdown, документы со сбитой нумерацией параграфов, больше похоже на копипасту из docx. Пробуем еще раз, да все, верно, даже на демо клиенту тяжеловато конвертить доки в гиковский маркдаун.

Что делаем?
Забираем на себя задачу конвертацию документов [ docx, pdf ] → markdown.

Варианты:
1. Находим SaaS, который за вменяемые деньги может этим заниматься и отдавать данные в нужном нам формате.
https://monkt.com/#pricing
https://products.aspose.app/words/conversion/docx-to-md
❓Вопрос: а в RU-сегменте кто этим занимается? Оплата по безналу и вот это все?

2. Поднимаем свой сервис конвертации docx, pdf в markdown
https://github.com/docling-project/docling
https://github.com/adithya-s-k/marker-api

Первый вариант заманчивый, но потратив порядка тридцати минут уверенности в том, что стоит в эту сторону копать поубавилось.
Пробуем пойти по второму варианту, с пол-пинка в докере поднимается https://github.com/docling-project/docling-serve

Просим у клиента тестовый набор документов, проверяем на них, что конвертация доклингом дает хорошие результаты.

#разработка #markdown
30 МАРТА

Заявка на демонстрацию
Сервис работает в тестовом режиме, подключаем клиентов из листа ожидания.
я согласен на получение рекламных рассылок
Нажимая кнопку «отправить», вы принимаете условия лицензионного соглашения и политики обработки персональных данных
Made on
Tilda