Скрипт для скачивания описей документов и дел с сайта http://unsecret.rusarchives.ru и сохранения в формате CSV.
При запуске сначала скачивается страничка номер 1 и оттуда берётся номер самой последней страницы.
После скачивания номер страницы записывается в файл getarchlog. Если работа скрипта прерывыается, в следующий раз он начинает с этой страницы.
Использование:
unsecret [option]
Опции:
--verbose - Вывод большего количества информации на STDIN
--fromfile <file> - Загрузка странички из файла (полезно для отладки регэкспов)
--cases - Загружать "дела"
--docs - Загружать "документы" (по умолчанию)
--printpage - Вывести скачанную страницу целиком
--outfile <file> - Название файла, в который выводится csv (по умолчанию - docs.csv и cases.csv)
Для обычного использования достаточно запуска:
$./unsecret --docs
Или
$./unsecret --cases
Данные будут сохраняться в файлик docs.csv или cases.csv