-
Если форматтер запихнет Image в center tag, то html.markdown не определит Image как тэг img и оставит его как в markdown
-
Для анализаторов данных нужны более строгие правила извлечения данных:
- Не брать в расчет изображения внутри документов (или делать extract?)
- Определять тип файла по первым битам, а не по расширениям (относится к последнему условию на проверку текстового типа по его расширению)
-
Сохранение state в базу данных
- прописать логику возобнавление прогресса с той точки, на которой остановился прогресс генерации документа:
- добавить в state report_parts, formatter_messages
- data block registry - восстановление с файла json
- прописать логику возобнавление прогресса с той точки, на которой остановился прогресс генерации документа:
-
Кэширование запросов
- Создать cache файл в tmp и сохранять его эмебинг и сверять потом с каждым сохраненным, пока не найдется подходящий (или использовать хеши для точного сравнения)
- если на вход doc_analyz поступает документ, который был ранее - возвращает ответ, который был сгенерирован ранее
-
RateLimiter сделать общим для всех tasks
-
Изображения вставляются неверно - Обтекания нет и Привязка к символу должна быть (https://docs-python.ru/packages/modul-python-docx-python/rabota-risunkami/)
- Анализ изображений документов пользователя
- А что если форматтеру дать возможность напрямую работать с docx? Написать инструменты для создания параграфов, вставки oxml и других приблуд. Так мы избавимся от массы проблем с неверной конвертацией markdown в html, а так же лишним слоем алгоритма (сейчас: formatter -> markdown -> html -> docx, а надо: formatter -> docx)