Web Scrapping

Nuevas herramientas de análisis de datos que cambian el periodismo actual

El periodismo de datos es uno de los pilares fundamentales actualmente en la información periodística. Debido a la proliferación de las noticias falsas en internet y el fácil acceso que tiene la sociedad a ellas es más necesario que nunca que los periodistas comprueben sus datos y sus fuentes a la hora de realizar sus informaciones.

Los datos aportan esa comprobación y seguridad sobre lo que se publica y respalda lo que el periodista esté diciendo. De esta manera, los datos ayudan a realizar investigaciones que puedan ser de utilidad a la sociedad, esa vocación de servicio al interés público es esencial en el trabajo del periodista.

Los alumnos del Máster en Periodismo Digital y de Datos tuvieron la oportunidad de conocer de primera mano el uso de herramientas muy útiles para analizar y extraer datos de documentos con el periodista Nacho Calle, que actualmente trabaja en Maldito Dato y antes lo hizo en el equipo de datos de laSexta.

Nacho Calle impartió un taller muy práctico para que los asistentes pudieron comprobar cómo se utilizan las herramientas, tanto online como offline, con ejemplos reales como por ejemplo, documentos solicitados a la administración pública. Con Calle los alumnos pudieron ver las especificaciones que tiene trabajar con cada tipo de documento, como por ejemplo los pdf “que es un formato no reutilizable y puede generar problemas para sacar los datos”, explicó Calle.

Cuando los datos que se quieren extraer están en imágenes o en tablas dentro de esas imágenes es necesario “usar software específicos que puedan reconocer el texto de la imagen para sacarlo”, dijo Calle. Aunque hay multitud de herramientas para ello, “para que el web scrapping funcione hay que preparar previamente el documento para la extracción de datos”, añadió el periodista.

El objetivo de todo este “rascado” de datos es conseguir hacer bases de datos legibles y manejables para el periodista para poder investigar y llegar a resultados interesantes, incluso cruzando unos datos con otros, de manera que las bases de datos creadas deben ser completas y exhaustivas para que resulten eficientes.

A pesar de la abrumadora cantidad de información, programas y especialización que hace falta para comprender y manejar los datos, documentos y herramientas, Nacho Calle dijo a los alumnos que “la clave es la experiencia, y si algo no sale bien, con estos software es rehacer y rehacer pensando en cambiar alguna cosa poco a poco hasta que extraiga bien los datos”.

Los comentarios están cerrados.