Skip to content

Latest commit

 

History

History
25 lines (18 loc) · 2.55 KB

File metadata and controls

25 lines (18 loc) · 2.55 KB

Roadmap

  • Если форматтер запихнет Image в center tag, то html.markdown не определит Image как тэг img и оставит его как в markdown

  • Для анализаторов данных нужны более строгие правила извлечения данных:

    • Не брать в расчет изображения внутри документов (или делать extract?)
    • Определять тип файла по первым битам, а не по расширениям (относится к последнему условию на проверку текстового типа по его расширению)
  • Сохранение state в базу данных

    • прописать логику возобнавление прогресса с той точки, на которой остановился прогресс генерации документа:
      • добавить в state report_parts, formatter_messages
    • data block registry - восстановление с файла json
  • Кэширование запросов

    • Создать cache файл в tmp и сохранять его эмебинг и сверять потом с каждым сохраненным, пока не найдется подходящий (или использовать хеши для точного сравнения)
    • если на вход doc_analyz поступает документ, который был ранее - возвращает ответ, который был сгенерирован ранее
  • RateLimiter сделать общим для всех tasks

  • Изображения вставляются неверно - Обтекания нет и Привязка к символу должна быть (https://docs-python.ru/packages/modul-python-docx-python/rabota-risunkami/)

Будущие функции проекта:

  • Анализ изображений документов пользователя

Идеи:

  • А что если форматтеру дать возможность напрямую работать с docx? Написать инструменты для создания параграфов, вставки oxml и других приблуд. Так мы избавимся от массы проблем с неверной конвертацией markdown в html, а так же лишним слоем алгоритма (сейчас: formatter -> markdown -> html -> docx, а надо: formatter -> docx)