Roadmap

Если форматтер запихнет Image в center tag, то html.markdown не определит Image как тэг img и оставит его как в markdown
Для анализаторов данных нужны более строгие правила извлечения данных:
- Не брать в расчет изображения внутри документов (или делать extract?)
- Определять тип файла по первым битам, а не по расширениям (относится к последнему условию на проверку текстового типа по его расширению)
Сохранение state в базу данных
- прописать логику возобнавление прогресса с той точки, на которой остановился прогресс генерации документа:
  - добавить в state report_parts, formatter_messages
- data block registry - восстановление с файла json
Кэширование запросов
- Создать cache файл в tmp и сохранять его эмебинг и сверять потом с каждым сохраненным, пока не найдется подходящий (или использовать хеши для точного сравнения)
- если на вход doc_analyz поступает документ, который был ранее - возвращает ответ, который был сгенерирован ранее
RateLimiter сделать общим для всех tasks
Изображения вставляются неверно - Обтекания нет и Привязка к символу должна быть (https://docs-python.ru/packages/modul-python-docx-python/rabota-risunkami/)

Будущие функции проекта:

Анализ изображений документов пользователя

Идеи:

А что если форматтеру дать возможность напрямую работать с docx? Написать инструменты для создания параграфов, вставки oxml и других приблуд. Так мы избавимся от массы проблем с неверной конвертацией markdown в html, а так же лишним слоем алгоритма (сейчас: formatter -> markdown -> html -> docx, а надо: formatter -> docx)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Roadmap

Будущие функции проекта:

Идеи:

FilesExpand file tree

TODO.md

Latest commit

History

TODO.md

File metadata and controls

Roadmap

Будущие функции проекта:

Идеи: