Improve validate-paper and validate-doc pipeline #378

BubbleNeumann · 2025-12-29T17:47:26Z

Проводим валидацию научной статьи по конкретному списку экспериментов. Для обработки ллм передаем только секцию экспериментов. В пайплайн добавлены промежуточные запросы к ллм.
Рефакторинг: ответственность за обработку статьи вынесена в модуль PaperAnalyze.
Closes #353

nicl-nno · 2025-12-29T18:24:07Z

А есть пример статьи и результата валидации?

BubbleNeumann · 2025-12-29T19:47:47Z

А есть пример статьи и результата валидации?

пример валидации
DiMag_validation_report.pdf

исходный репозиторий: https://github.com/ai-chem/DiMag
исходная статья: DiMag.pdf

nicl-nno · 2025-12-29T20:57:27Z

А как понять, как эксперимент в статье какому номеру соответствует? И кажется тут во всех экспериментах +- одно и то же описание.

Без ссылок на раздел статьи и скрипты в репозитории выглядит не очень информативно

BubbleNeumann · 2025-12-29T21:04:02Z

Без ссылок на раздел статьи и скрипты в репозитории выглядит не очень информативно

Доработаю, спасибо

nicl-nno · 2025-12-29T21:08:46Z

Доработаю, спасибо

Полноценное указание ссылок на источники вероятно масштабных доработок потребует, можно уже в отдельном PR.
Но хотя бы априорно выделять эк-ты какой-то цитатой из статьи или названием раздела явно стоит.

Возможно чем-то поможет код из

https://github.com/ITMO-NSS-team/CoScientist/tree/main/CoScientist/paper_parser
https://github.com/ITMO-NSS-team/CoScientist/tree/main/ChemCoScientist/paper_analysis

DRMPN

Попробуй следующие "отрицательные" случаи, чтобы посмотреть ответы модели:

Когда используешь нерелевантный документ
Когда из документа убираешь несколько страниц
Когда из репозитория удаляешь некоторые файлы

Так же можно попробовать использовать модель с reasoning, например:

openai/o3
anthropic/claude-haiku-4.5
gpt-5
grok 4

…aperAnalyzer as sep module

DRMPN

Ты прикрепила 2 отчета как пример:

DiMag_validation_report.pdf
DiMag_validation_report_fake.pdf

По коду вроде бы верно рассчитывается, но вместо 84% получилось 0.84% и т.д.
Посмотри, пожалуйста, из-за чего.

DRMPN · 2026-01-28T02:39:31Z

osa_tool/validation/report_generator.py

+        # TODO: extract calculations to the separate module, + place for constants
+        percentages = int(sum(e.correspondence_percent for e in experiments) / len(experiments) * 100)
+        correspondence = percentages > 0.8


Не уверен на счет этой константы.
Изначальная идея была в том, что ЛЛМ сама принимает решение.

DRMPN · 2026-01-28T02:45:50Z

osa_tool/config/prompts/validation.toml

+
+RULES:
+- Return ONLY a valid JSON object with no additional text, explanations, or formatting.
+- For "assessment", provide a brief assessment of how much of that specific experiment is implemented in the code base. Keep it in 1-2 sentences.


Может сюда добавить название файла с кодом и строки?

BubbleNeumann requested review from DRMPN, andreygetmanov and nicl-nno December 29, 2025 17:47

BubbleNeumann force-pushed the feature/requests-optimize branch from 04a719d to 3939ccc Compare December 29, 2025 17:48

BubbleNeumann changed the title ~~Improve --validate-paper pipeline~~ Improve validate-paper and validate-doc pipeline Dec 29, 2025

BubbleNeumann force-pushed the feature/requests-optimize branch from 17e397d to f9f8479 Compare December 29, 2025 18:24

DRMPN requested changes Dec 30, 2025

View reviewed changes

BubbleNeumann force-pushed the feature/requests-optimize branch from f9f8479 to df8321d Compare January 11, 2026 11:26

assess paper to repo correspondence by list of parameters & extract P…

2fa1095

…aperAnalyzer as sep module

BubbleNeumann force-pushed the feature/requests-optimize branch 4 times, most recently from 02adba3 to e8c5313 Compare January 26, 2026 23:41

BubbleNeumann requested a review from DRMPN January 26, 2026 23:49

andreygetmanov approved these changes Jan 27, 2026

View reviewed changes

add doc validator to existing pipeline

85e3d8d

BubbleNeumann force-pushed the feature/requests-optimize branch from e8c5313 to 85e3d8d Compare January 27, 2026 19:46

DRMPN requested changes Jan 28, 2026

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Improve validate-paper and validate-doc pipeline #378

Improve validate-paper and validate-doc pipeline #378

Uh oh!

BubbleNeumann commented Dec 29, 2025

Uh oh!

nicl-nno commented Dec 29, 2025

Uh oh!

BubbleNeumann commented Dec 29, 2025

Uh oh!

nicl-nno commented Dec 29, 2025

Uh oh!

BubbleNeumann commented Dec 29, 2025

Uh oh!

nicl-nno commented Dec 29, 2025 •

edited

Loading

Uh oh!

DRMPN left a comment

Uh oh!

DRMPN left a comment

Uh oh!

DRMPN Jan 28, 2026

Uh oh!

DRMPN Jan 28, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

Improve validate-paper and validate-doc pipeline #378

Are you sure you want to change the base?

Improve validate-paper and validate-doc pipeline #378

Uh oh!

Conversation

BubbleNeumann commented Dec 29, 2025

Uh oh!

nicl-nno commented Dec 29, 2025

Uh oh!

BubbleNeumann commented Dec 29, 2025

Uh oh!

nicl-nno commented Dec 29, 2025

Uh oh!

BubbleNeumann commented Dec 29, 2025

Uh oh!

nicl-nno commented Dec 29, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

DRMPN left a comment

Choose a reason for hiding this comment

Uh oh!

DRMPN left a comment

Choose a reason for hiding this comment

Uh oh!

DRMPN Jan 28, 2026

Choose a reason for hiding this comment

Uh oh!

DRMPN Jan 28, 2026

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

nicl-nno commented Dec 29, 2025 •

edited

Loading