miércoles, 27 de mayo de 2015

Recursos para la acumulación personal de conocimiento


La tendencia dominante en la red no es a facilitar la acumulación y organización del conocimiento (como se pudo pensar cuando se inició la Web) sino el fluir automático de datos, lo cual se incrementará con la "internet de las cosas", el mejor negocio imaginado por las compañías de telecomunicación. Para los profesionales sin embargo, así como para los estudiantes y docentes, obtener y organizar nuevos conocimientos es algo fundamental. 31,8% de los profesionales en ejercicio dicen que entre 80 y 100% de lo que están aprendiendo proviene del estudio informal y entre 40 y 60 % de sus conocimientos y habilidades actuales son producto del aprendizaje informal. Solo 5,3% dicen que el 80 al 100% proviene de un programa formal (encuesta Degreed.com). El aprendizaje informal toma la forma de artículos, videos, cursos en línea no programados, etc. 

Para aprovechar tanto el aprendizaje formal como el informal en internet se habla hoy de los "Sistemas de administración del aprendizaje apoyado en red". Las bases de datos con conexión directa a los documentos y los mapas conceptuales que funcionan como bases de datos son herramientas de este tipo. Lamentablemente los sistemas de este tipo son muy escasos. 
Dado que, como señalado, la prioridad es otra en la red, el mundo de las aplicaciones carece gravemente de sistemas útiles para acumular y organizar el conocimiento. El modelo más importante, que los bibliotecarios y documentalistas conocen desde hace mucho, es el de las bases de datos. Es también el que utilizan las empresas de e-comercio y todas las que viven de la red, para lo cual cuentan ya con sofisticados sistemas de análisis, capaces de operar con enormes cantidades de datos ("big data") y extraer de ellos conocimientos útiles para su negocio. Pero las necesidades de particulares, profesores y alumnos han sido prácticamente olvidados. Así, es muy difícil acumular información personal en forma ordenable (p.ej. para preparar una tesis o completar una investigación). 

En los primeros años de los Macintosh apareció el "FileMaker", que era ideal para dicha tarea, pero evolucionó rápidamente hacia el ámbito comercial y es carísimo (us$329). Hoy está disponible el "Access" de Microsoft, pero no forma parte del paquete ordinario del Office y debe comprarse (o arrendarse) en forma independiente o complementaria (135€). El "Base" de OpenOffice y de LibreOffice es gratuito pero no apto para aficionados además de requerir la plataforma Java que es muy insegura (recibe constantes ataques y pone en peligro el PC, por lo que no se recomienda). Si desea saber más sobre el manejo de Base, recomiendo el manual que está aquí (solo en inglés). 

¿Si no podemos o no queremos comprar dicha aplicación, cuales son las alternativas?
  1. Planilla (Excel o Calc)
    El sistema de "Base" descansa en un formato de tabla de datos, como el que encontramos en las planillas de cálculo. Y una planilla de cálculo normal es fácil de manejar. ¿Cuál la diferencia? Que un sistema de administración de base de datos (SABD) facilita un poco más el ingreso y la exhibición de los datos por cuanto permite diseñar "tarjetas" con los datos individuales de cada registro así como exportar con facilidad selecciones de datos en otros formatos. No hay mayor dificultad para crear una base de datos bibliográfica en una planilla (pantallazo a continuación): basta poner el encabezamiento de las columnas deseadas. Y podemos agregar todos los descriptores temáticos (u otros) que deseemos. La tabla se puede reordenar (alfanuméricamente) sobre la base de cualquier columna y es posible hacer búsquedas sobre el conjunto. Se puede exportar fácilmente el conjunto o una parte seleccionada en múltiples formatos.
    Para conservar citas, es un poco más complejo, porque hay que hacer ajustes especiales para que el texto de la misma sea completamente visible en una celda. El siguiente ejemplo muestra cómo hacer: seleccionar las columnas "Cita" y "Referencia" y luego "Celda" y "Alineación" en el menú de Formato, donde se ha de marcar "Ajustar este automáticamente". El alto se ajustará según la extensión de la cita. En la columna "Ref2" ponemos, si corresponde, un código de identificación del registro correspondiente a ese texto en nuestra tabla de bibliografía, para poder relacionar fácilmente los dos registros. Conviene agregar una columna (E) donde anotar también uno o varios descriptores para poder clasificar con facilidad las citas.
  2. Google Docs
    Google ofrece también la planilla de cálculo, que puede ser manejada del modo ya señalado pero le agrega dos ventajas: la actualización en la "nube" desde cualquier conexión y la posibilidad de utilizar formularios para ingresar datos. En realidad, los formularios están destinados a realizar encuestas, pero nada impide que los usemos para ingresar los datos que deseemos. Abrimos "Crear"-"Formulario" y seleccionamos el modelo que prefiramos. Luego organizamos el formulario (Para el ejemplo, lo nombramos "Registro de citas"). Para "Tipo de pregunta" seleccionamos cada vez "Texto" salvo para la referencia de publicación donde elegimos "Texto de párrafo" para tener más espacio. En el ejemplo agregamos un campo "Descriptor" para el más importante y "+ Descriptores" para descriptores segundarios (ahí podremos poner varios, útiles para búsquedas, pero no para ordenar). Podemos editar el formulario y sus campos tantas veces como queramos.
  3. Después de definir los campos de datos, dejamos activa la opción "Mostrar vínculo para enviar otra respuesta", lo cual facilitará el llenado de varios formularios. "Finalizamos" y luego copiamos el "Vínculo para compartir", que podemos poner en nuestros "Marcadores". 
    Luego pasamos a "Seleccionar el destino de las respuestas". En primera instancia, dejamos marcado "Nueva hoja de cálculo" y le ponemos un nombre. Aparecerá en el menú de Respuestas y en Google Drive. Después del primer ingreso de datos, podemos ver como quedaron registrados abriendo el "Resumen de respuestas" como sigue:
    En el menú de Respuestas o bien directamente en el menú de Drive, podemos abrir la planilla de respuestas y afinarla. Para poder leer correctamente los textos, seleccionamos la columna "Cita" y, en el menú de Formato, "Número"->"Texto sin formato" y "Ajustar texto". Y podemos ajustar el ancho de las columnas como queramos. Podemos realizar todas las operaciones habituales en las planillas (Ordenar, Buscar, etc.). 
    Siempre podemos ver el último registro ingresado en el mismo formato del formulario (aparentemente no se pueden ver ahí los anteriores). 
    El navegador Chrome tiene también una extensión para los usuarios de Google Docs, que permite administrar documentos fácilmente. Solo se debe instalar la extensión y conectarse con la cuenta de Gmail. 
    Además, en el navegador Chrome, se puede instalar la extensión Citable para guardar fácilmente enlaces y notas en hojas de cálculo de Google Docs. Con forma de Post-it, permite guardar la URL, la fecha, el título de la página, el autor del artículo y da la posibilidad de agregar etiquetas, una nota o incluso seleccionar el texto que deseamos destacar de la página o utilizar como referencia. Este contenido se guarda como una hoja de cálculo en nuestra cuenta de Drive, en una carpeta “Citable”. Ofrece incluso opción de imprimir en forma de post-it, así como la opción de exportarlos en formato Bibtex. (WwwhatsNew, 16/09/2014).


  4. Libreta de notas (Evernote)
    Evernote puede almacenar muchos tipos de contenido diferentes: texto, imagen y hasta copias de páginas web completas. Podemos crear varias "libretas", que son como pilas de tarjetas, por ejemplo en función de grandes temas o diferentes trabajos.
    Luego creamos "etiquetas", que serán nuestros descriptores, sea directamente en la columna de la izquierda sea a medida que vamos agregando "notas". Podemos tener acceso a todas notas, sin clasificar (primera opción del menú de Libretas), libreta por libreta o seleccionando las etiquetas. Luego podemos reordenar las notas por fecha de creación o título. Las búsquedas se hacen sobre todo lo ingresado. Las notas pueden también compartirse a través de las redes sociales. (No se requiere cuenta Premium). 
    Evernote es sumamente útil como aplicación para tomar notas en el escritorio o el móvil, manteniéndose sincronizado. Agregarle la extensión "Web Clipper" permite conservar directamente el contenido seleccionado de páginas web. Su desventaja: no hay forma de descargar de una vez un paquete de notas. 

    Un excelente complemento es Mohiomap, de Nueva Zelanda, que tuvo la excelente idea de utilizar las libertas y etiquetas para generar un mapa conceptual. Permite también conectarlo con Google Drive y Dropbox. Lamentablemente no nos funcionó en Chrome pero perfecto en Firefox.
    La versión gratuita sirve para ver, navegar y buscar entre los mapas mentales de las diversas libretas, pero la característica de pago (US$5 al mes) da la capacidad de elegir entre los temas personalizados y crear conexiones entre los diferentes nodos en el mapa, además de ofrecer un tablero de instrumentos de análisis, y añadir comentarios a las notas o archivos.(Video en Youtube).
  5. The Brain: Alternativa a Evernote con Mohiomap
    Para ordenar y conectar ideas, datos o fuentes, puede ser útil TheBrain es una herramienta de mapas mentales con arquitectura de base de datos -con versión gratuita y versión Pro- (para PC, con sincronización entre plataformas y acceso por web) que ayuda a guardar y visualizar múltiples tipos de datos. 
    Puede ser un complemento de la planilla de datos o de Evernote pero sin la integración que ofrece Mohiomap. Se descarga la versión completa, activa por un mes. Luego, si no se compra o arrienda (us$15/mes), se reducen las funciones (p.ej. Pro es necesario para anexar documentos y acceder directamente a ellos). Lamentablemente requiere contar con Java, una plataforma extremadamente débil frente a ataques externos (hackeo), por lo que su uso es riesgoso.
  6. Bases de datos en Linux

    DB Designer es una buena alternativa gratuita (Open Source) para crear bases de datos para quienes entienden como funcionan las bases de datos relacionales y disponen de un PC que pueda funcionar como servidor para bases de datos MySQL (típicamente con sistema operativo Linux y servidor Apache). Con DB Designer podemos crear con facilidad varias tablas y relacionarlas entre sí (por ejemplo una tabla de bibliografía y otra para las citas y vincularlas mediante un identificador único común). Viene acompañado de un excelente manual en Html (en inglés).

miércoles, 20 de mayo de 2015

La acumulación de datos personales


Al utilizar la web, los teléfonos y los televisores “inteligentes”, proporcionamos informaciones sobre nosotros mismos, que lo queramos o no. Siempre dejamos rastros de nuestra actividad en la web, sea que usemos las redes sociales o no. Y todas las empresas ahí presentes tratan de capturar esta información, que es ahora un valioso producto comercial. Y éste crecerá exponencialmente con los gadgets que formarán la llamada “Internet de las Cosas” o IoT (Internet of Things). Nuestras actividades online son fuente de conocimiento no solo para nosotros mismos sino para quienes nos prestan sus servicios en la red. 

Los datos recopilados en internet por las empresas se acumulan en grandes bases de datos que han pasado a llamarse “big data”. Google procesa 3.500 millones de búsquedas por día y almacena unos 10 exabytes de datos. Tiene más de un millón de servidores. Facebook agrega 500 terabytes de datos diariamente. Amazon mantiene los datos de compras de 152 millones de clientes en alrededor de 1 exabyte. (Fuente: Adeptia; Infographic Journal, 6/03/2015). 

Los captores de datos personales, en el mundo de internet, no son todos equivalentes ni tienen los mismos objetivos. Las empresas tratan de aprovechar los contactos logrados a través de la web o de sus apps para conocer mejor a sus posibles clientes y rentabilizar mejor la relación. Los gobiernos ofrecen y recopilan información para orientar su gestión y mejorar sus servicios... y realizan actividades de espionaje para proteger su seguridad. Los políticos están interesados en la opinión pública y en la forma de influir en ella. Y no olvidemos los piratas (hackers) que tratan de acceder a informaciones reservadas, servicios financieros, infraestructuras, etc. con las intenciones más oscuras. Las instituciones académicas, además de darse a conocer, ofrecen cada vez más alternativas de enseñanza a distancia y publican los resultados de sus proyectos de investigación. 

¿Cuáles son los usos que las empresas dan a las herramientas de análisis de datos? Principalmente (48%) el análisis del comportamiento de los consumidores (Betanews, 21/11/2014). La predicción del comportamiento de los consumidores es uno de los campos que más interesan y se espera que el marketing predictivo personalizado, utilizando los datos sociales, sea una de las áreas de negocio que más se beneficiarán del análisis de big data en los próximos años, a pesar de que el 71% de los directores de marketing de todo el mundo dicen que su organización no está preparada para hacer frente a esta explosión de datos en los próximos 3 a 5 años (Business Insider, 12/05/2014). Y es que analizar estas montañas de datos de modo que se obtenga información útil no es tarea fácil, como lo muestra el hecho de que los grandes “recopiladores” intenten recurrir a la inteligencia artificial, como ocurre con Facebook, Google, Twitter, LinkedIn y algunos otros, que están comenzando a utilizar estas técnicas avanzadas para desarrollar su capacidad de “aprendizaje profundo” a partir de los datos que acumulan en sus redes, desde las conversaciones hasta el reconocimiento facial de las fotos y la actividad en los juegos. Así, tienen el potencial de ser mucho más personalizados. Y hacen emerger nuevos campos de marketing: la agrupación de audiencia (clustering), el marketing predictivo y el análisis de los sentimientos frente a las marcas. 

El siguiente esquema muestra la complejidad del tema de la gestión de datos privados en el ambiente actual. Abordo más detalladamente este tema en mi libro "Secuestradores y secuestrados: Nuestros datos en internet" (PDF en ISSUU y ePub). 



miércoles, 13 de mayo de 2015

Los problemas de clasificación del saber

1. Categorización cerebral

El pensamiento es un producto que emerge de la complejidad del cerebro y de la capacidad de establecer relaciones. Y éstas conducen a la categorización, por medio de la diferenciación, cuya primera manifestación es simplemente la distinción de dos conjuntos y de la pertenencia de lo percibido a uno y no al otro (por ejemplo la distinción clásica entre figura y fondo, en la visión). Como lo describió Piaget, en el caso de la visión, el nivel más elemental puede ser el de la presencia o ausencia de alguna forma iluminada en el campo visual. Así surgirá automáticamente la distinción entre "algo luminoso" y "lo no-luminoso".
    "Es sólo poco a poco, con el efecto acumulativo de la experiencia y el enriquecimiento correlativo de la vida representativa, que la capacidad categorial se harán más y más abstracta y más y más diferenciada. [...] A partir del estadio genético cero, cualquier percepción implica una capacidad previa de «análisis» y de «síntesis» basada en las categorías, incluso si es en un nivel de complejidad y de conciencia muy elemental." (Cardu, p.66)

La categorización no es el resultado de un programa de tipo informático en un área sensorial que determine la ejecución de instrucciones para producir una salida (output) predeterminada. Al contrario, es producto de la actividad senso-motora en el conjunto de la cartografía cerebral, que selecciona grupos neuronales, dando salida al comportamiento adecuado, lo cual conduce a una categorización, basada en la estadística de las correlaciones entre las señales. (cfr. Edelman, pp.141-142). 

Las categorizaciones conceptuales (que son categorías "de segundo grado") descanzan en una mezcla de relaciones que unen impulsos provenientes del mundo real (externo), de los recuerdos y de los comportamientos pasados; y las áreas cerebrales que las controlan pueden operar sin entradas directas (pensamiento no expresado). La Teoría de la Selección de los Grupos Neuronales postula que, para ello, el cerebro construye mapas de sus propias actividades, las cuales se encontrarían en las áreas corticales frontales, temporales y parietales (Edelman, pp.166-168). 

De esta forma, organizamos en nuestra memoria de largo plazo (MLP) todo el conocimiento que obtenemos a lo largo de nuestra vida. La MLP se compone de dos tipos de archivos conceptuales: los de tipo histórico (modelos de acción y secuencia de acontecimientos) y los de tipo semántico.

"Conocer" algo significa habitualmente dos cosas: ser capaz de definirlo, es decir de representarlo verbalmente por medio de otros términos (o sea apelando a términos que representan otros conceptos), y poder reconocerlo cuando se presenta (o sea efectuar la identificación entre dos representaciones distintas, por ejemplo lo que vemos y el nombre común del objeto visto). Lo primero corresponde a una DEFINICION primaria o genérica, mientras lo segundo a una definición secundaria o pragmática. Ambas "definiciones" son una expresión de un contenido de la memoria que corresponde a dos niveles diferentes de generalidad o -si se quiere- de especificidad. En otras palabras, la memoria semántica es JERARQUIZADA: va de los conceptos más generales a los específicos y luego a las representaciones particulares. Esto establece una primera estructuración de los datos.

2. Clasificaciones documentales


Desde la creación de las primeras bibliotecas -en los templos de las ciudades mesopotámicas- ha surgido el problema de la clasificación de las obras. La biblioteca del rey asirio Asurbanípal, descubierta al excavar Nínive, tenía en muchas tabletas el "Colofón", anotación del título de la obra y datos para su catalogación. Pero se considera que el primer catálogo temático de la historia es el de la antigua y famosa Biblioteca Real de Alejandría (siglo III a.C.). Se presume que Zenódoto de Éfeso armó su sistema de categorías temáticas, luego asignó a los libros de cada categoría una habitación o parte de una habitación para colocar los rollos en una estantería por autor según orden alfabético. cada obra tenía una etiqueta donde constaba la procedencia, nombre del poseedor o vendedor y responsable del texto. Luego se crearon las tablas Pinakes, o «Tablas de Personas Eminentes en cada una de las ramas del aprendizaje, junto con una Lista de sus escritos». 

En la Edad Media se recurrió a la división de los conocimientos en diversos disciplinas que se agruparon en el Trivium (grática, dialéctica y retórica) y el Quadrivium (aritmética, geometría, astronomía y música), enumeración que aparece en una obra del escritor latino Martianus Capella entre 410 y 429 y que presidió a la enseñanza universitaria. Posteriormente se fueron agregando el derecho y la medicina, y luego la agricultura, la ingeniería, la economía y el arte de los negocios. 

Con el desarrollo de la imprenta y la multiplicación de las obras, el ordenamiento básico por disciplina y luego por nombre de autor dejó rapidamente de ser suficientemente útil y se hizo necesario un método más elaborado. En 1876, Melvil Dewey, bibliotecario del Amherst College en Massachusetts (EEUU), inventó un sistema decimal de división y subdivisión de las disciplinas, llamado desde entonces "Sistema de Clasificación Decimal Dewey" o CDD. En 1895, Dewey permitió a los belgas Paul Otlet y Henri La Fontaine traducir y adaptar su sistema para un proyecto de "Repertorio Bibliográfico Universal". De esta forma desarrollaron en 1905 un esquema del que posteriormente surge la Clasificación Decimal Universal (CDU). 

Pero estos sistemas de clasificación son muy pobres como sistemas de descripción: muchas obras caben en más de una categoría y, para poner remedio a esta limitación, las bibliotecas empezaron a usar tarjetas de descriptores, repitiendo los datos de cada obra en varias tarjetas, con diferentes descriptores. 

Tuve el mismo problema cuando, a fines de los años '60, preparé mi tesis de licenciatura. Para no hacer copiar varias veces los datos (referencia bibliográfica o cita) en varias fichas, opté por utilizar la CDU con 6 cifras, pero utilizando un código de color para cada cifra en lugar de los números. Marcaba así los bordes de cada tarjeta, con dos o más códigos, lo cual me permitía reordenarlas con facilidad, moviéndolas como naipes. 

Cuando, más tarde, dispuse de un PC, busqué otras opciones y encontré el tesauro de la UNESCO, un sistema jeraquizado destinado a la descripción de documentos y publicaciones en los campos de la educación, cultura, ciencias naturales, ciencias sociales y humanas, comunicación e información. Contiene 7.000 términos en inglés y en ruso, y 8.600 en francés y en español.
Modelo de ficha de registro en un tesauro

Sin embargo, cuando estuve a cargo del servidor web de la Facultad de Comunicación de la Universidad Diego Portales y de la revista digital "Temas de Tecnologías Digitales de Comunicación" de su Centro de Estudios Mediales (2000-2004), encontré pronto que ni la CDU ni el tesauro UNESCO permitía describir y clasificar las noticias y artículos de dicha área con suficiente precisión. Así, poco a poco, creamos un nuevo tesauro más especializado para este ámbito con unos 300 términos.

Las revistas científicas del área de las ciencias sociales utilizan habitualmente el tesauro de la UNESCO en los metadatos de descripción de los artículos que publican. Sin embargo ni los editores ni los autores están satisfechos debido a la falta de especificidad. Basta revisar las palabras-clave que los autores ponen en sus artículos para ver la enorme variedad de temas que desean recalcar. 

La Plataforma Latina de Revistas de Comunicación estudió el tema, pensando proponer un tesauro propio (para lo cual disponía de un estudio sobre los temas abordados durante unos diez años en la Revista Latina de Comunicación), pero concluyó que, aún así, los autores no encontrarían los descriptores que deseasen y que más valía dejar abiertas las opciones. 

Como dice Chris Anderson, "el sistema de clasificación de Dewey en realidad no tiene nada que ver con el mundo del conocimiento, sino con el mundo de los libros" (La economía Long Tail, p.207). Ésto vale también para la CDU y cualquier otro sistema parecido: apuntan a la conservación de documentos físicos y a la facilidad para encontrarlos en los estantes, que solo pueden estar en UN determinado lugar, mientras su contenido -el significado, el conocimiento- puede ser clasificado, como todo contenido de nuestra propia memoria, de múltiples maneras.
Estructura de una base de datos de biblioteca

Con los documentos digitales, la situación es muy diferente. Y, tanto para nuestras bases de datos personales como la publicación en internet, el sistema también ha de ser diferente. 

A nivel personal, tenemos algunos temas o tipos de datos que nos interesan y lo más práctico puede ser una tabla diferente para cada uno (p.ej. separando los libros de los filmes y más aún de registros de noticias). Y, en cada caso, sin duda somos capaces de describir los contenidos con múltiples términos. Nos hacemos nuestro propio tesauro, apropiado para cada tipo de dato.

3. Web y grandes datos


En la web, como lo he señalado para las revistas, la inserción de metadatos basados en un tesauro es muy poco útil, siendo demasiado genéricos. En los primeros años de la web, se utilizó una etiqueta <meta> de descriptores, donde se podían poner los que se quisiera. Habría sido útil para facilitar búsquedas rápidas si todos hubiesen sido honestos en la descripción. Pero muchos sitios de pornografía empezaron a colocar ahí numerosos términos sin relación alguna con sus contenidos, con tal de que aparecieran en los resultados de búsqueda. Así, se tuvo que abandonar dicho sistema. Pero apareció Google y empezó a desarrollar su algoritmo analizando los títulos y las primeras líneas de las páginas. Y lo fue prefeccionando tomando en cuenta la frecuencia con que eran consultadas. Hoy, combina exitosamente el análisis del contenido real y el "éxito de lectura".

Amazon, por su parte, también considera para sus recomendaciones el éxito de lectura (ventas) y los comentarios que recibe. Y, para su buscador, analiza el texto buscando en cada obra "expresiones estadísticamente improbables", que tipifican su contenido y lo distiguen de cualquier otro. Además ofrece una lista de categorías que se ajustan de acuerdo a etiquetas propuestas por los mismos lectores. 

En ambos casos son los procesos mentales humanos -sumados- los que, en última instancia, generan la clasificación, sobre la base de un encuentro entre lo expresado (contenido, sentido) y lo buscado (categorías mentales de los "clientes"). Pero con los "big data" ha entrado otra problemática y otro método: el de la interpretación y clasificación automática. 

Con millones de datos acumulados, en formatos diferentes (lenguaje natural, fotografías, videos), ya no es posible el análisis y la creación "humana" de propuestas de clasificación. Lo que hace Amazon con su "identificación de expresiones improbables" para complementar la propuesta de etiquetas por parte de sus lectores es solo un pálido reflejo de las nuevas técnicas. Para encontrar patrones (aspectos comunes, clasificables), los verdaderos "explotadores" de big data recurren a una técnica de inteligencia artificial llamada "aprendizaje no supervisado", donde es imposible indicar previamente a la máquina que tipo de resultado es esperable o sería válido. Se recurre para ello a algoritmos capaces de agrupar datos descubriendo características comunes. Así, por ejemplo, la máquina puede reconocer que cierta cantidad de imágenes corresponde a fotografías y que, en parte de éstas, hay figuras humanas (y hasta reconocer los rostros). Así, la máquina puede definir patrones y calcular la "distancia" relativa de cada registro en relación al patrón definido. Es parte del trabajo del "científico de datos" elegir el algoritmo más apropiado para el problema a su cargo y su objetivo, debiendo probablemente probar varios. (Se puede encontrar aquí una descripción del proceso en el sistem Azure de Microsoft).

Los sistemas más poderosos de aprendizaje mecánico son los basados en redes neuronales y las máquinas de "aprendizaje profundo" (deep learning) simulan hoy millones de neuronas. Es lo que permite, por ejemplo, a Facebook reconocer e identificar los rostros en las fotos. También ayuda a Google a identificar el spam en el correo electrónico. Todo basado en el reconocimiento de patrones, es decir en el mecanismo de la clasificación.


Referencias
Anderson, Ch.: La economía Long Tail, Barcelona, Urano, 2007.
Cardu, B.: Neuropsychologie du cerveau, De Boeck Université, Paris, 1996.
Edelman, G.: Biologie de la conscience, Paris, Odile Jacob, 1992.
Ericson, G.: How to choose an algorithm in Azure Machine Learning, en Azure.Microsoft.com, 05/05/2015
How machine learning works, The Economist explains, 13/05/2015.

miércoles, 6 de mayo de 2015

La ciencia de datos


Uno de los grandes temas de la informática de internet hoy es el de los grandes datos o "big data", que son las acumulaciones de los datos que las empresas pueden recopilar a partir de la navegación de sus clientes en la web. Las empresas – de todo tipo – se han empeñado rápidamente en tratar de sacar provecho tanto de la información que revelamos en las redes sociales y otros medios de publicación (blogs, etc.) como de los datos que pueden obtener al margen de nuestro conocimiento. Con los móviles y las redes sociales, conocen nuestras listas de amigos, nuestros gustos, donde hemos estado, y más. Y, analizando o vendiendo estos datos, pueden obtener mayores beneficios gracias a la información que les entregamos. El desarrollo de algoritmos de análisis de la navegación permite también conocer cada vez mejor lo que ocurre en la sociedad al punto de que se podría llegar a predecir comportamientos. 

A pesar de que en algunas publicaciones web sobre negocios se aboga por el uso de los big data en cualquier empresa, utilizar estos datos no es fácil. No se trata, como pretenden algunos, de manejar grandes planillas Excel, incluso algunas veces con funciones avanzadas, y generar buenos gráficos con ellas. "Grandes" datos no son planillas de varios megabytes, sino conjuntos que pueden llegar a varios terabytes (millones de veces más grandes). También se trata de conjuntos complejos, con diferentes tipos de datos en archivos de formatos diferentes (cifras, textos e incluso imágenes). Tratarlos es el objeto de la novedosa “ciencia de los datos” (data science), que combina la estadística con la informática (principalmente programación y manejo de datos) y el adecuado conocimiento de los objetivos de las empresas (gestión de alto nivel). 

Así, la ciencia de los datos se diferencia de la tradicional ciencia estadística especialmente por la consideración de grandes cantidades de datos no estructurados, lo cual requiere dominar nuevas herramientas informáticas además de los tradicionales conocimientos estadísticos. Un “científico de datos” debe dominar el cálculo multivariable, el álgebra lineal y matricial, la programación en Python y R y los métodos de visualización de datos (gráfica). 

Mediante la “minería de datos”, con las herramientas apropiadas, puede descubrir patrones valiosos escondidos en la masa de los datos y, a partir de ellos, formular una o varias hipótesis que sean útiles para la operación de la empresa, para luego someterla a prueba1. Luego, o en paralelo, utiliza herramientas analíticas que operen sobre el conjunto de los datos para obtener nueva información (“datos agregados”) más valiosa que si tomase esos datos de manera individual. Así, por ejemplo, puede definir nuevas categorías de clientes, “cruzar” éstas con la localización de los mismos obtenida de sus teléfonos móviles y, así, segmentar una publicidad móvil según el tipo de cliente y el lugar en que se encuentran. Se puede conocer mejor lo que desean los clientes, logrando, así, que la experiencia de los clientes mejore al ofrecerles lo que les atrae. La industria del turismo usa este sistema “para formar un mapa de fotos de acuerdo a las imágenes que toman los turistas con sus smartphones en determinado lugar. Si ingresamos a Google Maps, por ejemplo, veremos en París cientos de fotos diferentes de la Torre Eiffel tomadas por otras personas que no conocemos”. (Zanoni, p.69). 

No todos los datos son iguales ni tienen el mismo valor o la misma calidad, y la empresa ha de definir los datos que le pueden resultar útiles. Ésto significa también que el científico de datos debe conocer muy bien la empresa y sus fines y trabajar en relación estrecha con quienes definen los objetivos de los diversos proyectos. Algunos datos pueden ser útiles para un proyecto en particular pero resultar inservible para otros. Así, las operaciones de análisis también pueden variar según los objetivos. 

Las variables básicas que considera la ciencia de datos son el volumen de datos, la velocidad de análisis requerida (tiempo “real” o diferido), la variedad (tipos de archivos y contenidos), el valor y la veracidad de la información. Implica, como ya señalado, diferentes métodos de tratamiento e interfaces (visualización). (UIT, 2014, pp.39-40, con el gráfico que sigue). 




Uno de los principales objetivos de la ciencia de datos es la de predecir el resultado de determinadas acciones o situaciones y ofrecer de antemano sugerencias sobre lo que se puede hacer al respecto.

    “No se trata únicamente de tomar mejores decisiones, sino también de reducir la carga de trabajo necesaria para tomar tales decisiones. Estas capacidades reconocen la complejidad inherente del análisis Big Data pero hacen que las soluciones sean accesibles a los usuarios. Lo consiguen al analizar los datos con un riguroso enfoque científico, pero proporcionan a los usuarios una explicación de por qué una decisión es más recomendable en términos que pueden ser universalmente entendidos. Es vital que la solución sea intuitiva y accesible. Si no, simplemente no se usará. El data science debe tener en cuenta, además, que la solución final necesita evolucionar. Es decir, no solo debe tener un valor medible (y reportable) para el negocio, sino que tiene que tener también métricas internas que sirvan como fuente de información para la auto mejora. Si no, incluso la mejor solución terminará por quedarse obsoleta.” (Juan Miró, TICbeat, 15/01/2015)

La aplicación adecuada el software puede lograr un aumento significativo de la velocidad de obtención de resultados. Así, por ejemplo, “una compañía global de productos de consumo puede reducir la obtención de informes de 6 minutos a 736 microsegundos en tiempo real; una empresa de fabricación puede reducir la presentación de informes al cliente de días a segundos; y una empresa financiera redujo los cálculos del modelo de venta de 45 minutos a 5 segundos” (Schoenborn, p.9). 

Existen cuatro tipos de análisis de datos:

  • descriptivo: “Usa estadísticas básicas o visualización para caracterizar un conjunto de datos. Los resultados pueden mostrar promedios, totales, frecuencias, y tal vez una relación causal. La gran mayoría de la analítica hecha hoy cae en esta categoría.
  • predictivo: Ayuda a ver lo que puede deparar el futuro. Se usan modelos estadísticos para pronosticar una condición como ingresos, beneficios, cuota de mercado, o resultado operacional. El análisis predictivo se basa en una relación modelada entre un conjunto de variables independientes. Se utiliza frecuentemente para la planificación.
  • prescriptivo: Lleva el análisis predictivo a un nuevo nivel mediante la optimización de los mejores resultados de una predicción. Tiene en cuenta las nuevas entradas o restricciones específicas de una situación dada.
  • cognitivo: Utiliza técnicas y una infraestructura de alto rendimiento para extraer las relaciones entre diversos conjuntos de datos. (Schoenborn, p.8)
Los científicos de datos pueden usar el análisis de siete maneras diferentes según William Chen:
    1. para diseñar e interpretar experimentos para informar las decisiones de productos
    2. para construir modelos que predicen la señal, no el ruido
    3. para transformar los big data en una gran imagen (visualización)
    4. para entender la participación de los usuarios, retención, conversión y clientes potenciales
    5. para dar a sus usuarios lo que quieren
    6. para hacer estimacines inteligentes
    7. para contar la historia con los datos. (Dataconomy.com, 28/11/2014)
El plan del análisis debe apuntar a:
  • Habilitar un acceso compartido y seguro a información rica y fiable, capaz de absorber volúmenes de datos crecientes, mas variados y a mayor escala.
  • Construir inteligencia en las transacciones operativas a través de análisis rápidos y optimización de la pila de soluciones para diferentes cargas de trabajo de análisis.
  • Maximizar la disponibilidad y los conocimientos en el momento adecuado para hacer frente a más usuarios y más concurrencia, cambio en la demanda y capacidad de recuperación en el punto de impacto. (Schoenborn, p.13)

¿Big data para comunicadores?


Los periodistas, como también la mayoría de los académicos del área de las comunicaciones sociales, pueden trabajar con ciertas cantidades de datos que obtienen sea de fuentes externas sea de investigaciones propias. Muchas veces los datos pueden ser acumulados y tratados en planillas Excel. Además, Microsoft ofrece un plugin para Excel 2010 llamado PowerPivot que permite tratar conjuntos de datos masivos (millones de filas) más eficientemente. Si se requieren funciones estadísticas más avanzadas (regresión, funciones no-lineales, series temporales, simulaciones, etc.), es clásico el sistema SPSS de IBM, ahora con un motor gráfico sobresaliente. Obviamente, mientras más se sepa de estadística, mejor podrá ser el análisis. Pero, a mi juicio, ya ha pasado la época en que ésto era suficiente para un verdadero análisis de big data, especialmente porque el “big” es mucho mayor y más complejo que hace cinco años (lo cual no quiere decir que un análisis más simple no pueda ser valioso). 

Sin duda un medio de prensa que quiera priorizar el “periodismo de datos” o que quiera analizar el comportamiento de sus lectores online deberá recurrir al menos a algún tipo de servicio análisis de datos "en la nube" (hay algunas empresas que ofrecen “paquetes” básicos gratuitos y luego diferentes tarifas según la cantidad de contenido o el uso de su nube). Es posible que los académicos investigadores, con el apoyo de sus universidades, también puedan recurrir a este tipo de herramienta que, obviamente, no están al alcance de “todos”. Y los expertos señalan también la conveniencia de formar los futuros periodistas en los conceptos y el manejo de este tipo de herramientas, al menos para saber qué y cómo hacer requerimientos para generar nuevos contenidos. 


Referencias
Schoenborn, B. (2014): Big Data Analytics Infrastructure For Dummies, IBM Limited Edition, John Wiley & Sons.
Stanton, J. (2013): An Introduction to Data Science, Syracuse University (PDF comprimido ZIPVer PDF en pantalla).
UIT (2014): Informe sobre Medición de la Sociedad de la Información 2014 - Resumen Ejecutivo, Ginebra, UIT.
Zanoni, L. (2014): Futuro inteligente, Autoedición.
Colle, R. (2015)Secuestradores y secuestrados: Nuestros datos en internet. PDF en ISSUU - ePub