news_scraper

Operacionalización do acceso a corpus de texto para o treino de modelos en galego.

Coa opción --help obtense axuda.

$ python run.py --help
usage: run.py [-h] [--loglevel {DEBUG,INFO,WARNING,ERROR,CRITICAL}] {praza,nosdiario} ...

News scraper

options:
  -h, --help            show this help message and exit
  --loglevel, -l {DEBUG,INFO,WARNING,ERROR,CRITICAL}
                        Define o nivel de registo.

source:
  {praza,nosdiario}
    praza               Scraper de Praza Pública
    nosdiario           Scraper de Nós Diario

Tamén para os subcomandos:

$ python run.py praza --help
usage: run.py praza [-h]
                    [--category {Acontece,Ciencia e tecnoloxía,Cultura,Deportes,Economía,Lecer,Movementos sociais,Mundo,Política} [{Acontece,Ciencia e tecnoloxía,Cultura,Deportes,Economía,Lecer,Movementos sociais,Mundo,Política} ...]]
                    (--download [FROM] | --parse [FILE])

options:
  -h, --help            show this help message and exit
  --category, -c {Acontece,Ciencia e tecnoloxía,Cultura,Deportes,Economía,Lecer,Movementos sociais,Mundo,Política} [{Acontece,Ciencia e tecnoloxía,Cultura,Deportes,Economía,Lecer,Movementos sociais,Mundo,Política} ...]
                        Categorias para descarregar.
  --download, -d [FROM]
                        Descarregar os ficheiros HTML (FROM: [category, rss]; por defecto: 'category').
  --parse, -p [FILE]    Parsea todos os ficheiros HTML descarregados (FILE para processar só um
                        ficheiro).

A configuración básica está incluída nun ficheiro INI (config.ini) contendo as rutas onde se almacenaran tanto os ficheiros intermedios (XML, HTML, RSS, etc) como os finais (JSON).

data: directorio base para cada fonte de datos.
source: directorio no que se almacenan os artigos.
rss: directorio no que se almacenan os ficheiros de índices RSS empregados para obter os artigos dos xornais.
corpus: directorio no que se almacenan os ficheiros JSON finais.

Praza Pública

Descarga os HTML de Praza Pública desde os inicios ate hoxe.

$ python run.py --loglevel INFO praza --download

Descarga só as categorías "Acontece" e "Ciencia e tecnoloxía".

python run.py --loglevel INFO praza --download --category Acontece "Ciencia e tecnoloxía"

Procesa os HTML para producir o JSON final.

$ python run.py --loglevel INFO praza --parse

NÓS Diario

Procesa os XML en formato NewsML descarregados previamente do RSS privado.

$ python run.py --loglevel INFO nosdiario --parse

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
news_scraper		news_scraper
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.ini		config.ini
requirements.txt		requirements.txt
run.py		run.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

news_scraper

Praza Pública

NÓS Diario

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

news_scraper

Praza Pública

NÓS Diario

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages