DataCrawler

Crawler sencillo para información publica anotada con microdata y rdfa.

Requerimientos

Ubuntu 12.04 o mayor. Python 2.7, virtualenv, python-pip, git.

Instalación y Ejecución

Crear un entorno virtual de Python

$ virtualenv datacrawler

Activar el entorno virtual

$ source path_to_datacrawler_venv/bin/activate

Clonar este repositorio

$ git clone https://github.com/SENATICS/DataCrawler.git

Instalar el módulo correspondiente:

$ cd DataCrawler

$ ./install.sh path_to_datacrawler_venv

$ python setup.py develop

Modificar el archivo settings.py

Mover el archivo settings-example.py a settings.py y modificar los valores especificados más abajo según las configuraciones locales:

SPLASH_URL: URL donde se levanta el servidor splash

CATALOG_URL: URL del Catálogo de Datos Nacional

API_KEY: API Key del Catálogo de Datos Nacional

Ejemplo

SPLASH_URL: ‘http://localhost:8050/’

CATALOG_URL: ‘http://www.example.com/api/3/action/’

API_KEY: ‘1a2b3456-c7d8-91ef-a234-b567cd891e23’

Ejecutar DataCrawler en una terminal:

$ python DataCrawler/bin/DataCrawler.py --file=path_to_your_file_with_domains_to_crawl --virtualenv path_to_datacrawler_venv

Documentación

El manual de usuario en formato PDF, que acompaña el código fuente de esta herramienta, se encuentra en el directorio doc de este repositorio.

Observaciones

path_to_your_file_with_domains_to_crawl: ruta absoluta a la ubicación del arhcivo que contiene la lista de los dominios sobre los cuales se realizará el crawling.

path_to_datacrawler_venv: ruta absoluta a la ubicación del entorno virtual donde se instaló el DataCrawler.

Name		Name	Last commit message	Last commit date
Latest commit History 80 Commits
bin		bin
crawler		crawler
doc		doc
importer		importer
lib		lib
.gitignore		.gitignore
CHANGES.txt		CHANGES.txt
LICENSE.txt		LICENSE.txt
MANIFEST.in		MANIFEST.in
README.md		README.md
install.sh		install.sh
run_splash.sh		run_splash.sh
scrapy.cfg		scrapy.cfg
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

DataCrawler

Requerimientos

Instalación y Ejecución

Documentación

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

License

verena91/DataCrawler

Folders and files

Latest commit

History

Repository files navigation

DataCrawler

Requerimientos

Instalación y Ejecución

Documentación

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Uh oh!

Languages

Packages