1c-help-parser/
├── 📄 README.md # Главная документация
├── 📄 QUICK_START.md # Быстрый старт
├── 📄 PROJECT_INFO.md # Информация о проекте
├── 📄 STRUCTURE.md # Этот файл
├── 📄 run.py # Главный скрипт запуска
├── 📄 requirements.txt # Зависимости Python
├── 📄 LICENSE # Лицензия MIT
├── 📄 .gitignore # Исключения Git
└── 📄 VERSION # Версия проекта
Проект использует модульную архитектуру с базовыми классами:
BaseParser- абстрактный базовый класс для всех парсеровBaseConverter- абстрактный базовый класс для всех конвертеров
base_parser.py- Базовый класс для всех парсеровhbk_parser.py- Анализ структуры .hbk архивовbsl_syntax_extractor.py- Извлечение синтаксиса из HTML
base_converter.py- Базовый класс для всех конвертеровcontext_converter.py- Конвертация в контекст для LLMoptimized_context_converter.py- Оптимизированная конвертация
llm_context_demo.py- Демо для основного файла (русский)test_root_demo.py- Демо для файла оглавления (английский)optimized_demo.py- Демо оптимизированного контекстаimproved_demo.py- Демо улучшенного парсераinspect_hbk.py- Простой инспектор архивов
- ✅ Парсинг ZIP архивов
- ✅ Извлечение HTML контента
- ✅ Поиск синтаксических элементов
- ✅ Создание поисковых индексов
- ✅ Экспорт в различные форматы
- По умолчанию: 500 файлов за раз (настраивается)
- Полная обработка: Доступна при изменении параметра
max_files - Производительность: Оптимизирована для больших архивов
*.zip- Восстановленные архивы документации*.hbk- Оригинальные файлы документации
bsl_syntax.json- Данные основного файлаbsl_syntax_root.json- Данные файла оглавленияhbk_analysis.json- Анализ структуры архивов
1c_context.json- Структурированный контекст (content + metadata)1c_context.txt- Текстовый контекст для LLM1c_search_index.json- Поисковый индекс1c_summary.json- Краткое резюме
{
"content": "Краткое описание объекта",
"metadata": {
"syntax_variants": [], // Варианты синтаксиса
"parameters_by_variant": {}, // Параметры по вариантам
"collection_elements": {}, // Информация о коллекциях
"methods": [], // Методы объекта
"availability": [], // Доступность
"version": "" // Версия
}
}context_chunks/objects_context.txt- Объектыcontext_chunks/properties_context.txt- Свойства
extracted/- Извлеченные HTML файлы
README_CONTEXT.md- Инструкции по использованию контекста
COMPARISON.md- Сравнение результатов парсингаFINAL_REPORT.md- Итоговый отчет проекта
bsl_syntax.md- Документация синтаксиса в Markdownreadme.md- Старый README (для справки)
Module.bsl- Пример модуля на языке 1С
python run.py [опции]--file <путь>- Обработать конкретный файл--demo <путь>- Запустить демонстрацию--all- Обработать все файлы--check- Проверить зависимости
python run.py
# Выберите действие из меню- Исходные данные: ~70MB
- Результаты парсинга: ~1.5MB
- Контекст для LLM: ~500KB
- Документация: ~50KB
- Python скрипты: 6
- JSON файлы: 8
- Текстовые файлы: 3
- Markdown файлы: 5
- ZIP архивы: 4
- HBK файлы: 2
- Русский язык: Основной файл
- Английский язык: Файл оглавления
- Автоматическое создание поисковых индексов
- Поддержка нечеткого поиска
- Категоризация результатов
- Изменение лимитов обработки
- Настройка форматов вывода
- Выбор парсеров HTML
- Добавление новых типов файлов
- Создание новых экспортеров
- Интеграция с внешними системами
- Python 3.8+
- beautifulsoup4 - Парсинг HTML
- lxml - Быстрый XML/HTML парсер
- zipfile - Работа с архивами
- json - Обработка JSON
- re - Регулярные выражения
- Изучение синтаксиса 1С
- Поиск методов и свойств
- Понимание архитектуры
- Создание контекста
- Улучшение ответов
- Автоматическая документация
- Структурированные материалы
- Интерактивные примеры
- Поиск по ключевым словам