miércoles, 6 de mayo de 2015

La ciencia de datos


Uno de los grandes temas de la informática de internet hoy es el de los grandes datos o "big data", que son las acumulaciones de los datos que las empresas pueden recopilar a partir de la navegación de sus clientes en la web. Las empresas – de todo tipo – se han empeñado rápidamente en tratar de sacar provecho tanto de la información que revelamos en las redes sociales y otros medios de publicación (blogs, etc.) como de los datos que pueden obtener al margen de nuestro conocimiento. Con los móviles y las redes sociales, conocen nuestras listas de amigos, nuestros gustos, donde hemos estado, y más. Y, analizando o vendiendo estos datos, pueden obtener mayores beneficios gracias a la información que les entregamos. El desarrollo de algoritmos de análisis de la navegación permite también conocer cada vez mejor lo que ocurre en la sociedad al punto de que se podría llegar a predecir comportamientos. 

A pesar de que en algunas publicaciones web sobre negocios se aboga por el uso de los big data en cualquier empresa, utilizar estos datos no es fácil. No se trata, como pretenden algunos, de manejar grandes planillas Excel, incluso algunas veces con funciones avanzadas, y generar buenos gráficos con ellas. "Grandes" datos no son planillas de varios megabytes, sino conjuntos que pueden llegar a varios terabytes (millones de veces más grandes). También se trata de conjuntos complejos, con diferentes tipos de datos en archivos de formatos diferentes (cifras, textos e incluso imágenes). Tratarlos es el objeto de la novedosa “ciencia de los datos” (data science), que combina la estadística con la informática (principalmente programación y manejo de datos) y el adecuado conocimiento de los objetivos de las empresas (gestión de alto nivel). 

Así, la ciencia de los datos se diferencia de la tradicional ciencia estadística especialmente por la consideración de grandes cantidades de datos no estructurados, lo cual requiere dominar nuevas herramientas informáticas además de los tradicionales conocimientos estadísticos. Un “científico de datos” debe dominar el cálculo multivariable, el álgebra lineal y matricial, la programación en Python y R y los métodos de visualización de datos (gráfica). 

Mediante la “minería de datos”, con las herramientas apropiadas, puede descubrir patrones valiosos escondidos en la masa de los datos y, a partir de ellos, formular una o varias hipótesis que sean útiles para la operación de la empresa, para luego someterla a prueba1. Luego, o en paralelo, utiliza herramientas analíticas que operen sobre el conjunto de los datos para obtener nueva información (“datos agregados”) más valiosa que si tomase esos datos de manera individual. Así, por ejemplo, puede definir nuevas categorías de clientes, “cruzar” éstas con la localización de los mismos obtenida de sus teléfonos móviles y, así, segmentar una publicidad móvil según el tipo de cliente y el lugar en que se encuentran. Se puede conocer mejor lo que desean los clientes, logrando, así, que la experiencia de los clientes mejore al ofrecerles lo que les atrae. La industria del turismo usa este sistema “para formar un mapa de fotos de acuerdo a las imágenes que toman los turistas con sus smartphones en determinado lugar. Si ingresamos a Google Maps, por ejemplo, veremos en París cientos de fotos diferentes de la Torre Eiffel tomadas por otras personas que no conocemos”. (Zanoni, p.69). 

No todos los datos son iguales ni tienen el mismo valor o la misma calidad, y la empresa ha de definir los datos que le pueden resultar útiles. Ésto significa también que el científico de datos debe conocer muy bien la empresa y sus fines y trabajar en relación estrecha con quienes definen los objetivos de los diversos proyectos. Algunos datos pueden ser útiles para un proyecto en particular pero resultar inservible para otros. Así, las operaciones de análisis también pueden variar según los objetivos. 

Las variables básicas que considera la ciencia de datos son el volumen de datos, la velocidad de análisis requerida (tiempo “real” o diferido), la variedad (tipos de archivos y contenidos), el valor y la veracidad de la información. Implica, como ya señalado, diferentes métodos de tratamiento e interfaces (visualización). (UIT, 2014, pp.39-40, con el gráfico que sigue). 




Uno de los principales objetivos de la ciencia de datos es la de predecir el resultado de determinadas acciones o situaciones y ofrecer de antemano sugerencias sobre lo que se puede hacer al respecto.

    “No se trata únicamente de tomar mejores decisiones, sino también de reducir la carga de trabajo necesaria para tomar tales decisiones. Estas capacidades reconocen la complejidad inherente del análisis Big Data pero hacen que las soluciones sean accesibles a los usuarios. Lo consiguen al analizar los datos con un riguroso enfoque científico, pero proporcionan a los usuarios una explicación de por qué una decisión es más recomendable en términos que pueden ser universalmente entendidos. Es vital que la solución sea intuitiva y accesible. Si no, simplemente no se usará. El data science debe tener en cuenta, además, que la solución final necesita evolucionar. Es decir, no solo debe tener un valor medible (y reportable) para el negocio, sino que tiene que tener también métricas internas que sirvan como fuente de información para la auto mejora. Si no, incluso la mejor solución terminará por quedarse obsoleta.” (Juan Miró, TICbeat, 15/01/2015)

La aplicación adecuada el software puede lograr un aumento significativo de la velocidad de obtención de resultados. Así, por ejemplo, “una compañía global de productos de consumo puede reducir la obtención de informes de 6 minutos a 736 microsegundos en tiempo real; una empresa de fabricación puede reducir la presentación de informes al cliente de días a segundos; y una empresa financiera redujo los cálculos del modelo de venta de 45 minutos a 5 segundos” (Schoenborn, p.9). 

Existen cuatro tipos de análisis de datos:

  • descriptivo: “Usa estadísticas básicas o visualización para caracterizar un conjunto de datos. Los resultados pueden mostrar promedios, totales, frecuencias, y tal vez una relación causal. La gran mayoría de la analítica hecha hoy cae en esta categoría.
  • predictivo: Ayuda a ver lo que puede deparar el futuro. Se usan modelos estadísticos para pronosticar una condición como ingresos, beneficios, cuota de mercado, o resultado operacional. El análisis predictivo se basa en una relación modelada entre un conjunto de variables independientes. Se utiliza frecuentemente para la planificación.
  • prescriptivo: Lleva el análisis predictivo a un nuevo nivel mediante la optimización de los mejores resultados de una predicción. Tiene en cuenta las nuevas entradas o restricciones específicas de una situación dada.
  • cognitivo: Utiliza técnicas y una infraestructura de alto rendimiento para extraer las relaciones entre diversos conjuntos de datos. (Schoenborn, p.8)
Los científicos de datos pueden usar el análisis de siete maneras diferentes según William Chen:
    1. para diseñar e interpretar experimentos para informar las decisiones de productos
    2. para construir modelos que predicen la señal, no el ruido
    3. para transformar los big data en una gran imagen (visualización)
    4. para entender la participación de los usuarios, retención, conversión y clientes potenciales
    5. para dar a sus usuarios lo que quieren
    6. para hacer estimacines inteligentes
    7. para contar la historia con los datos. (Dataconomy.com, 28/11/2014)
El plan del análisis debe apuntar a:
  • Habilitar un acceso compartido y seguro a información rica y fiable, capaz de absorber volúmenes de datos crecientes, mas variados y a mayor escala.
  • Construir inteligencia en las transacciones operativas a través de análisis rápidos y optimización de la pila de soluciones para diferentes cargas de trabajo de análisis.
  • Maximizar la disponibilidad y los conocimientos en el momento adecuado para hacer frente a más usuarios y más concurrencia, cambio en la demanda y capacidad de recuperación en el punto de impacto. (Schoenborn, p.13)

¿Big data para comunicadores?


Los periodistas, como también la mayoría de los académicos del área de las comunicaciones sociales, pueden trabajar con ciertas cantidades de datos que obtienen sea de fuentes externas sea de investigaciones propias. Muchas veces los datos pueden ser acumulados y tratados en planillas Excel. Además, Microsoft ofrece un plugin para Excel 2010 llamado PowerPivot que permite tratar conjuntos de datos masivos (millones de filas) más eficientemente. Si se requieren funciones estadísticas más avanzadas (regresión, funciones no-lineales, series temporales, simulaciones, etc.), es clásico el sistema SPSS de IBM, ahora con un motor gráfico sobresaliente. Obviamente, mientras más se sepa de estadística, mejor podrá ser el análisis. Pero, a mi juicio, ya ha pasado la época en que ésto era suficiente para un verdadero análisis de big data, especialmente porque el “big” es mucho mayor y más complejo que hace cinco años (lo cual no quiere decir que un análisis más simple no pueda ser valioso). 

Sin duda un medio de prensa que quiera priorizar el “periodismo de datos” o que quiera analizar el comportamiento de sus lectores online deberá recurrir al menos a algún tipo de servicio análisis de datos "en la nube" (hay algunas empresas que ofrecen “paquetes” básicos gratuitos y luego diferentes tarifas según la cantidad de contenido o el uso de su nube). Es posible que los académicos investigadores, con el apoyo de sus universidades, también puedan recurrir a este tipo de herramienta que, obviamente, no están al alcance de “todos”. Y los expertos señalan también la conveniencia de formar los futuros periodistas en los conceptos y el manejo de este tipo de herramientas, al menos para saber qué y cómo hacer requerimientos para generar nuevos contenidos. 


Referencias
Schoenborn, B. (2014): Big Data Analytics Infrastructure For Dummies, IBM Limited Edition, John Wiley & Sons.
Stanton, J. (2013): An Introduction to Data Science, Syracuse University (PDF comprimido ZIPVer PDF en pantalla).
UIT (2014): Informe sobre Medición de la Sociedad de la Información 2014 - Resumen Ejecutivo, Ginebra, UIT.
Zanoni, L. (2014): Futuro inteligente, Autoedición.
Colle, R. (2015)Secuestradores y secuestrados: Nuestros datos en internet. PDF en ISSUU - ePub

No hay comentarios:

Publicar un comentario