Успешно создан парсер документации 1С для извлечения синтаксиса и создания контекстных файлов для LLM. Проанализированы два ключевых файла:
rebuilt.shcntx_ru.zip- основной файл документацииrebuilt.shcntx_root.zip- файл оглавления
- Размер: 38MB
- Всего файлов: ~5000
- Обработано: 500 файлов (ограничение)
- Найдено элементов: 0 (требуется полная обработка)
- Размер: 32MB
- Всего файлов: 51065
- Обработано: 500 файлов (ограничение)
- Найдено элементов: 474
- Объекты: 466
- Свойства: 8
bsl_syntax.json- структурированные данныеbsl_syntax.md- документация в Markdown1c_context.json- контекст для LLM1c_context.txt- текстовый контекстcontext_chunks/- файлы по категориям1c_search_index.json- поисковый индекс1c_summary.json- резюме
bsl_syntax_root.json- структурированные данные1c_context.json- контекст для LLM (перезаписан)1c_context.txt- текстовый контекстcontext_chunks/- файлы по категориям1c_search_index.json- поисковый индекс1c_summary.json- резюме
- Фокус: Детальная документация по синтаксису
- Структура: Таблицы, поля, параметры
- Язык: Русский
- Полезность: Для изучения конкретного синтаксиса
- Фокус: Архитектура и навигация
- Структура: Объекты, интерфейсы, формы
- Язык: Английский
- Полезность: Для понимания общей архитектуры
- Поиск работает с русскими запросами
- Находит детальную информацию по синтаксису
- Подходит для разработчиков
- Поиск работает с английскими запросами
- Находит объекты и их структуру
- Подходит для изучения архитектуры
Создан демонстрационный скрипт test_root_demo.py для тестирования поиска в файле оглавления:
python test_root_demo.py 1c_context.jsonПримеры успешных запросов:
- "What is FormDataStructure?"
- "What is Global context?"
- "What is DynamicList?"
- "What is Interface?"
- Убрать ограничение в 500 файлов в
bsl_syntax_extractor.py - Обработать все файлы в обоих архивах
- Объединить результаты для создания полного контекста
- Изучение архитектуры: Использовать файл оглавления
- Изучение синтаксиса: Использовать основной файл
- LLM интеграция: Комбинировать оба файла
- Разработка: Начинать с оглавления, затем углубляться
- Добавить русско-английский перевод для унификации
- Улучшить поисковый алгоритм для более точных результатов
- Добавить категоризацию по типам объектов
- Создать веб-интерфейс для удобного поиска
hbk_parser.py- анализ структуры архивовbsl_syntax_extractor.py- извлечение синтаксисаcontext_converter.py- конвертация в контекст
llm_context_demo.py- демо для основного файлаtest_root_demo.py- демо для файла оглавления
- JSON файлы для программного доступа
- Текстовые файлы для LLM
- Поисковые индексы для быстрого поиска
- Markdown документация для чтения
Проект успешно демонстрирует возможность парсинга документации 1С и создания контекстных файлов для LLM. Два файла дополняют друг друга и обеспечивают полное покрытие документации.
Следующие шаги:
- Полная обработка всех файлов
- Объединение результатов
- Создание единого поискового интерфейса
- Интеграция с LLM системами