viernes, 25 de agosto de 2017

Los olvidos de la ciencia

Ya en 2001, Catherine Rollot señalaba en "Le Monde Electronique" (14/3/2001) que "En el caso de documentos en papel, el proceso de conservación puede durar meses o incluso siglos. Pero para datos electrónicos, mientras más largo es el tiempo de producción y acumulación, más riesgo se corre de no poder guardarlo". 

Timothy H. Vines de la Universidad de Columbia Británica, y diez de sus colegas investigaron lo que ocurre a través del tiempo (entre 2 y 22 años) con los informes de 516 investigaciones. Sus conclusiones: un alto porcentaje de los datos recogidos está perdido, principalmente porque se guardaron en formatos que hoy no se pueden recuperar como diskettes o papel (deteriorado). Además, los datos de contacto de los autores cambian cada año y 40% de los citados no pudo ser contactado, situación que empeora un 17% con cada año que pasa. Así, los autores solo pudieron recuperar el 20% de los datos de base de estas 516 investigaciones.

Recomendación (de ellos y de este autor): guardarlo todo en formato digital, actualizar este respaldo y hacerlo público en más de un sitio (y preferir algún sitio de uso masivo). (Fuente: The Availability of Research Data Declines Rapidly with Article Age)

Aún si le hacemos caso a estas recomendaciones, la gestión de los documentos electrónicos plantea serios problemas debido a los frecuentes cambios de los soportes (diskettes, cintas magnéticas, CD, discos duros, nube) y de los formatos (.doc, .docx, .rtf, .pdf, etc.). Hubo fabricantes de CDs que afirmaban que su CD podía durar hasta 200 años (se ha señalado después que ello solo era posible con los que tienen una capa dorada), mientras otros señalaban que una expectativa realista de vida estaba alrededor de los 50 años. Se está advirtiendo ahora que podría ser inferior a 10 años y se recomienda copiar en un disco duro externo (cuya expectativa promedio de vida es de cerca de cinco años y conviene renovar después de este período) y en la nube (como en Google Drive). Pero no se debe olvidar que la obsolescencia técnica es para los datos un peligro aún mayor que el deterioro del soporte físico. En otras palabras, ¿existirá el formato actual dentro de 75 o 100 años? Si el PDF parece hoy el más estable y seguro: ¿lo será aún dentro de 50 o más años?

Para la web existe felizmente un intento de conservación histórica (Wayback Machine), aunque incompleto, y los enormes archivos de Google, donde se pueden encontrar muchas veces duplicados de documentos desaparecidos (la vigencia de los sitios web es muy relativa).

Pero los documentos anteriores a 1995 son mucho más difíciles de encontrar, dependiendo de las bibliotecas en que se pueden haber guardado y solo estarán disponibles los que fueron digitalizados. En esto ha estado trabajando Google, mediante acuerdo con diversas grandes bibliotecas. Pero, sin dudas, muchas obras se le escaparán.

Hice el ejercicio de buscar algunas de mis investigaciones de los años '80. Mientras aún está disponible (en papel) en la biblioteca de la Pontificia Universidad Católica de Chile mi informe de investigación de 1988 titulado "La ilustración de prensa en periódicos de Santiago de Chile", así como de mi "Estudio sobre la pérdida del pudor en la prensa" (que es una parte del anterior), no aparecen ahí rastros de otras investigaciones de la misma década, realizadas utilizando un computador Apple IIe, con diskettes de 5,25", hoy inexistentes.

No quedó rastro, por ejemplo, de mi investigación sobre "El comportamiento de comunicación de los alumnos de periodismo", realizada entre los años 1984 y 1988, que habría sido interesante comparar con su conducta de hoy (Ni siquiera yo tengo copia). De los informes de algunas otras aún poseo una copia en papel, que podría pasar a PDF, para guardar en discos duros. Los programas que escribí para analizar los datos, como "StatPro: Estadísticas no-paramétricas" (programado en 1984 en Basic y Assembler para procesador 6502), están definitivamente perdidos. De mi "ANATEX" (Analizador de textos), programado del mismo modo en 1985, pude hacer -hace 10 años- un par de versiones en PHP para la plataforma Apache-Linux, que pude usar hasta el año 2014, no pudiendo actualizarlo después por no disponer ya de computador con dicha plataforma y no conocer las actualizaciones del lenguaje PHP (que requerirían actualizar el software). El software es sin duda uno de los principales afectados por los avances tecnológicos y el pasado de las aplicaciones uno de los más difíciles de reconstruir.