lunes, 11 de mayo de 2020

Ebooks gratuitos de la editorial Springer con R

Recientemente la editorial Springer liberó una serie de 408 libros técnicos y científicos que pueden descargarse gratuitamente de su web. Para poder bajarlos del tirón y a la vez practicar con el web scrapping, he preparado unas líneas en R que los descarga usando el paquete rvest.

La rutina limpia los nombres originales dejándolos en formato Camel case y sin caracteres extraños. Se guarda además un log indicando los libros cuya descarga falló por no encontrarse el enlace. Aunque los archivos se guardan siempre en formato PDF, en el log se indica de qué libros se disponía versión Epub.

En el momento de ejecutar la rutina, de los 408 libros no he podido descargar 20 por no existir el enlace directo al PDF.




Mi agradecimiento a Carlos Gil Bellosta por echarme un cable con las para mí ofuscadas funciones del paquete rvest (en realidad mi problema no es rvest sino HTML/CSS, pero a alguien le tenía que echar la culpa). Desde este Excel por cortesía de yasduit pueden bajarse los libros uno a uno.

~~~

Repositorio con el código R y archivos auxiliares: GitHub.

No hay comentarios:

Publicar un comentario

Por claridad del blog, por favor trata de utilizar una sintaxis lo más correcta posible y no abusar del uso de emoticonos, mayúsculas y similares.