miércoles, 13 de mayo de 2015

Los problemas de clasificación del saber

1. Categorización cerebral

El pensamiento es un producto que emerge de la complejidad del cerebro y de la capacidad de establecer relaciones. Y éstas conducen a la categorización, por medio de la diferenciación, cuya primera manifestación es simplemente la distinción de dos conjuntos y de la pertenencia de lo percibido a uno y no al otro (por ejemplo la distinción clásica entre figura y fondo, en la visión). Como lo describió Piaget, en el caso de la visión, el nivel más elemental puede ser el de la presencia o ausencia de alguna forma iluminada en el campo visual. Así surgirá automáticamente la distinción entre "algo luminoso" y "lo no-luminoso".
    "Es sólo poco a poco, con el efecto acumulativo de la experiencia y el enriquecimiento correlativo de la vida representativa, que la capacidad categorial se harán más y más abstracta y más y más diferenciada. [...] A partir del estadio genético cero, cualquier percepción implica una capacidad previa de «análisis» y de «síntesis» basada en las categorías, incluso si es en un nivel de complejidad y de conciencia muy elemental." (Cardu, p.66)

La categorización no es el resultado de un programa de tipo informático en un área sensorial que determine la ejecución de instrucciones para producir una salida (output) predeterminada. Al contrario, es producto de la actividad senso-motora en el conjunto de la cartografía cerebral, que selecciona grupos neuronales, dando salida al comportamiento adecuado, lo cual conduce a una categorización, basada en la estadística de las correlaciones entre las señales. (cfr. Edelman, pp.141-142). 

Las categorizaciones conceptuales (que son categorías "de segundo grado") descanzan en una mezcla de relaciones que unen impulsos provenientes del mundo real (externo), de los recuerdos y de los comportamientos pasados; y las áreas cerebrales que las controlan pueden operar sin entradas directas (pensamiento no expresado). La Teoría de la Selección de los Grupos Neuronales postula que, para ello, el cerebro construye mapas de sus propias actividades, las cuales se encontrarían en las áreas corticales frontales, temporales y parietales (Edelman, pp.166-168). 

De esta forma, organizamos en nuestra memoria de largo plazo (MLP) todo el conocimiento que obtenemos a lo largo de nuestra vida. La MLP se compone de dos tipos de archivos conceptuales: los de tipo histórico (modelos de acción y secuencia de acontecimientos) y los de tipo semántico.

"Conocer" algo significa habitualmente dos cosas: ser capaz de definirlo, es decir de representarlo verbalmente por medio de otros términos (o sea apelando a términos que representan otros conceptos), y poder reconocerlo cuando se presenta (o sea efectuar la identificación entre dos representaciones distintas, por ejemplo lo que vemos y el nombre común del objeto visto). Lo primero corresponde a una DEFINICION primaria o genérica, mientras lo segundo a una definición secundaria o pragmática. Ambas "definiciones" son una expresión de un contenido de la memoria que corresponde a dos niveles diferentes de generalidad o -si se quiere- de especificidad. En otras palabras, la memoria semántica es JERARQUIZADA: va de los conceptos más generales a los específicos y luego a las representaciones particulares. Esto establece una primera estructuración de los datos.

2. Clasificaciones documentales


Desde la creación de las primeras bibliotecas -en los templos de las ciudades mesopotámicas- ha surgido el problema de la clasificación de las obras. La biblioteca del rey asirio Asurbanípal, descubierta al excavar Nínive, tenía en muchas tabletas el "Colofón", anotación del título de la obra y datos para su catalogación. Pero se considera que el primer catálogo temático de la historia es el de la antigua y famosa Biblioteca Real de Alejandría (siglo III a.C.). Se presume que Zenódoto de Éfeso armó su sistema de categorías temáticas, luego asignó a los libros de cada categoría una habitación o parte de una habitación para colocar los rollos en una estantería por autor según orden alfabético. cada obra tenía una etiqueta donde constaba la procedencia, nombre del poseedor o vendedor y responsable del texto. Luego se crearon las tablas Pinakes, o «Tablas de Personas Eminentes en cada una de las ramas del aprendizaje, junto con una Lista de sus escritos». 

En la Edad Media se recurrió a la división de los conocimientos en diversos disciplinas que se agruparon en el Trivium (grática, dialéctica y retórica) y el Quadrivium (aritmética, geometría, astronomía y música), enumeración que aparece en una obra del escritor latino Martianus Capella entre 410 y 429 y que presidió a la enseñanza universitaria. Posteriormente se fueron agregando el derecho y la medicina, y luego la agricultura, la ingeniería, la economía y el arte de los negocios. 

Con el desarrollo de la imprenta y la multiplicación de las obras, el ordenamiento básico por disciplina y luego por nombre de autor dejó rapidamente de ser suficientemente útil y se hizo necesario un método más elaborado. En 1876, Melvil Dewey, bibliotecario del Amherst College en Massachusetts (EEUU), inventó un sistema decimal de división y subdivisión de las disciplinas, llamado desde entonces "Sistema de Clasificación Decimal Dewey" o CDD. En 1895, Dewey permitió a los belgas Paul Otlet y Henri La Fontaine traducir y adaptar su sistema para un proyecto de "Repertorio Bibliográfico Universal". De esta forma desarrollaron en 1905 un esquema del que posteriormente surge la Clasificación Decimal Universal (CDU). 

Pero estos sistemas de clasificación son muy pobres como sistemas de descripción: muchas obras caben en más de una categoría y, para poner remedio a esta limitación, las bibliotecas empezaron a usar tarjetas de descriptores, repitiendo los datos de cada obra en varias tarjetas, con diferentes descriptores. 

Tuve el mismo problema cuando, a fines de los años '60, preparé mi tesis de licenciatura. Para no hacer copiar varias veces los datos (referencia bibliográfica o cita) en varias fichas, opté por utilizar la CDU con 6 cifras, pero utilizando un código de color para cada cifra en lugar de los números. Marcaba así los bordes de cada tarjeta, con dos o más códigos, lo cual me permitía reordenarlas con facilidad, moviéndolas como naipes. 

Cuando, más tarde, dispuse de un PC, busqué otras opciones y encontré el tesauro de la UNESCO, un sistema jeraquizado destinado a la descripción de documentos y publicaciones en los campos de la educación, cultura, ciencias naturales, ciencias sociales y humanas, comunicación e información. Contiene 7.000 términos en inglés y en ruso, y 8.600 en francés y en español.
Modelo de ficha de registro en un tesauro

Sin embargo, cuando estuve a cargo del servidor web de la Facultad de Comunicación de la Universidad Diego Portales y de la revista digital "Temas de Tecnologías Digitales de Comunicación" de su Centro de Estudios Mediales (2000-2004), encontré pronto que ni la CDU ni el tesauro UNESCO permitía describir y clasificar las noticias y artículos de dicha área con suficiente precisión. Así, poco a poco, creamos un nuevo tesauro más especializado para este ámbito con unos 300 términos.

Las revistas científicas del área de las ciencias sociales utilizan habitualmente el tesauro de la UNESCO en los metadatos de descripción de los artículos que publican. Sin embargo ni los editores ni los autores están satisfechos debido a la falta de especificidad. Basta revisar las palabras-clave que los autores ponen en sus artículos para ver la enorme variedad de temas que desean recalcar. 

La Plataforma Latina de Revistas de Comunicación estudió el tema, pensando proponer un tesauro propio (para lo cual disponía de un estudio sobre los temas abordados durante unos diez años en la Revista Latina de Comunicación), pero concluyó que, aún así, los autores no encontrarían los descriptores que deseasen y que más valía dejar abiertas las opciones. 

Como dice Chris Anderson, "el sistema de clasificación de Dewey en realidad no tiene nada que ver con el mundo del conocimiento, sino con el mundo de los libros" (La economía Long Tail, p.207). Ésto vale también para la CDU y cualquier otro sistema parecido: apuntan a la conservación de documentos físicos y a la facilidad para encontrarlos en los estantes, que solo pueden estar en UN determinado lugar, mientras su contenido -el significado, el conocimiento- puede ser clasificado, como todo contenido de nuestra propia memoria, de múltiples maneras.
Estructura de una base de datos de biblioteca

Con los documentos digitales, la situación es muy diferente. Y, tanto para nuestras bases de datos personales como la publicación en internet, el sistema también ha de ser diferente. 

A nivel personal, tenemos algunos temas o tipos de datos que nos interesan y lo más práctico puede ser una tabla diferente para cada uno (p.ej. separando los libros de los filmes y más aún de registros de noticias). Y, en cada caso, sin duda somos capaces de describir los contenidos con múltiples términos. Nos hacemos nuestro propio tesauro, apropiado para cada tipo de dato.

3. Web y grandes datos


En la web, como lo he señalado para las revistas, la inserción de metadatos basados en un tesauro es muy poco útil, siendo demasiado genéricos. En los primeros años de la web, se utilizó una etiqueta <meta> de descriptores, donde se podían poner los que se quisiera. Habría sido útil para facilitar búsquedas rápidas si todos hubiesen sido honestos en la descripción. Pero muchos sitios de pornografía empezaron a colocar ahí numerosos términos sin relación alguna con sus contenidos, con tal de que aparecieran en los resultados de búsqueda. Así, se tuvo que abandonar dicho sistema. Pero apareció Google y empezó a desarrollar su algoritmo analizando los títulos y las primeras líneas de las páginas. Y lo fue prefeccionando tomando en cuenta la frecuencia con que eran consultadas. Hoy, combina exitosamente el análisis del contenido real y el "éxito de lectura".

Amazon, por su parte, también considera para sus recomendaciones el éxito de lectura (ventas) y los comentarios que recibe. Y, para su buscador, analiza el texto buscando en cada obra "expresiones estadísticamente improbables", que tipifican su contenido y lo distiguen de cualquier otro. Además ofrece una lista de categorías que se ajustan de acuerdo a etiquetas propuestas por los mismos lectores. 

En ambos casos son los procesos mentales humanos -sumados- los que, en última instancia, generan la clasificación, sobre la base de un encuentro entre lo expresado (contenido, sentido) y lo buscado (categorías mentales de los "clientes"). Pero con los "big data" ha entrado otra problemática y otro método: el de la interpretación y clasificación automática. 

Con millones de datos acumulados, en formatos diferentes (lenguaje natural, fotografías, videos), ya no es posible el análisis y la creación "humana" de propuestas de clasificación. Lo que hace Amazon con su "identificación de expresiones improbables" para complementar la propuesta de etiquetas por parte de sus lectores es solo un pálido reflejo de las nuevas técnicas. Para encontrar patrones (aspectos comunes, clasificables), los verdaderos "explotadores" de big data recurren a una técnica de inteligencia artificial llamada "aprendizaje no supervisado", donde es imposible indicar previamente a la máquina que tipo de resultado es esperable o sería válido. Se recurre para ello a algoritmos capaces de agrupar datos descubriendo características comunes. Así, por ejemplo, la máquina puede reconocer que cierta cantidad de imágenes corresponde a fotografías y que, en parte de éstas, hay figuras humanas (y hasta reconocer los rostros). Así, la máquina puede definir patrones y calcular la "distancia" relativa de cada registro en relación al patrón definido. Es parte del trabajo del "científico de datos" elegir el algoritmo más apropiado para el problema a su cargo y su objetivo, debiendo probablemente probar varios. (Se puede encontrar aquí una descripción del proceso en el sistem Azure de Microsoft).

Los sistemas más poderosos de aprendizaje mecánico son los basados en redes neuronales y las máquinas de "aprendizaje profundo" (deep learning) simulan hoy millones de neuronas. Es lo que permite, por ejemplo, a Facebook reconocer e identificar los rostros en las fotos. También ayuda a Google a identificar el spam en el correo electrónico. Todo basado en el reconocimiento de patrones, es decir en el mecanismo de la clasificación.


Referencias
Anderson, Ch.: La economía Long Tail, Barcelona, Urano, 2007.
Cardu, B.: Neuropsychologie du cerveau, De Boeck Université, Paris, 1996.
Edelman, G.: Biologie de la conscience, Paris, Odile Jacob, 1992.
Ericson, G.: How to choose an algorithm in Azure Machine Learning, en Azure.Microsoft.com, 05/05/2015
How machine learning works, The Economist explains, 13/05/2015.

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.