Web scraping para características de empresas

Resumen:

Inspirado en los objetivos de la ESSnet Big Data I de Análisis de las metodologías para el uso de internet para la obtención de datos de la sociedad de la información el siguiente proyecto presenta la aplicación práctica de la recolección de variables estadísticas vía web scraping. Las variables estadísticas objetivo son el uso de medios de comunicación sociales, los idiomas utilizados en la página web, recepción de pedidos o reservas on-line y publicidad de ofertas de empleo o recepción de solicitudes de trabajo. La obtención de características de empresas parte de un input de urls validado. Partiendo de estas se ha elaborado software propio en lenguaje Python para la recolección de datos utilizando las librerías más características para web scraping como Requests, Beautiful Soup o Selenium.

La segunda fase del proyecto evalúa los resultados obtenidos utilizando la herramienta R Studio para realizar una validación de los resultados obtenidos en la primera fase contrastándolos con los resultados de la actual Encuesta sobra la sociedad de la información elaborada por Eustat. El objetivo del proyecto es la eliminación algunos ítems para evitar la carga de respuesta y agilizar el proceso para el encuestado.

AUTORES:

Ander Iparraguirre García
Instituto Vasco de Estadística (EUSTAT)

Matías Ledesma Sereno
Instituto Vasco de Estadística (EUSTAT)

Deja una respuesta

Tu dirección de correo electrónico no será publicada.