miércoles, 30 de septiembre de 2015

Análitica de textos en big data


Se considera generalmente que la información no estructurada representa el 80% de los datos con que cuenta una organización. Con los servicios "en la nube" y el rastreo de las actividades de los clientes o "visitantes" en las redes sociales, estos datos han crecido a gran velocidad y resulta casi imposible que un grupo humano los pueda analizar sin recurrir a nuevos métodos informáticos. Ya me he referido a ello al hablar de los cambios en el acceso al conocimiento, a la ciencia de datos y en el post pasado sobre acumulación comercial de datos personales. 

Si bien en muchos casos cada atributo registrado será el equivalente a una palabra o un par de ellas, también se darán múltiples casos en que serán más, lo cual dificulta aún más el análisis, obligando a entrar en el campo de la semántica, o sea de la comprensión del lenguaje, que deberá ser automática para poder generar en tiempo útil una información relevante. 

Mediante la comprensión de la lengua, del contexto, y de cómo se utiliza el lenguaje en las conversaciones, el análisis de texto descubre el "qué", el "quién", el "dónde" y el "cuándo" de la conversación, "cómo" la gente se siente y "por qué" la conversación está sucediendo. Es ésto lo que permite que las conversaciones sean clasificadas y los temas de discusión identificados y lo que el programa de análisis automático debe lograr lo mejor posible, para así convertir los datos no estructurados en datos estructurados y permitir a las empresas "escuchar" globalmente las transmisiones que captan. 

Aquí es donde entran a jugar un rol clave los sistemas de "inteligencia de negocios", que incluyen sistemas completos de análisis de textos, orientados al monitoreo de medios de comunicación social o de gestión de la "experiencia del cliente". Muchos proveedores incorporan ambos aspectos en un solo paquete, permitiendo a las empresas "escuchar" y responder a las necesidades o deseos de sus clientes.

    "El análisis de texto puede ser utilizado para desarrollar una mejor comprensión de los gustos, disgustos y motivaciones del cliente. Cambiar los incentivos del programa de fidelidad para que coincidan con los deseos de los clientes puede mejorar las ventas y aumentar la fidelización de clientes" nos dice Jeff Catlin, CEO de Lexalytic. una empresa que provee este tipo de servicios.

Hace poco, Facebook dió a conocer su sistema de análisis "Topic Data" que utiliza el análisis de texto para revelar lo que las audiencias están diciendo en esta red sobre eventos, marcas, sujetos y actividades. Los vendedores pueden utilizarlo para tomar mejores decisiones sobre sus productos y sus actividades. 
IBM también impulsa el uso de su supercomputador Watson para este tipo de análisis, para lo cual compró Alchemy, y Microsoft compró Equivio, una compañía de análisis de texto que se centra en eDiscovery. 
Y la tecnología de análisis de texto no sólo cubre el inglés, sino también muchos otros idiomas como francés, español, alemán, mandarín y japonés.

* Actualización / Complemento
Ha quedado demostrado, sin embargo, que los actuales sistemas de análisis automático de textos que ofrecen las empresas están lejos de ser realmente útiles como métodos de análisis de contenido. Estos sistemas (salvo quizás Watson) no tienen aún ninguna capacidad de crear categorías conceptuales a partir de lo leído. Solo pueden confeccionar estadísticas de frecuencia de las palabras y eventualmente de conexiones entre algunas en una misma oración ("segmentos"), con lo cual los resultados entregados siguen siendo poco útiles y sin justificación alguna en el caso de los "segmentos" computados (siendo los algoritmos desconocidos y no revelados). Para obtener algo más útil, se requiere definir palabras clave, lo cual obliga al usuario a leer al menos parte de los textos... e introducir desviaciones. "No vamos a poder obtener ninguna información útil a no ser que codifiquemos de forma manual, al menos mínimamente, los textos a partir de un tesauro con su estructura jerárquica y correspondencias que, también, hemos de crear nosotros mismos. Y la pregunta es, ¿de qué nos sirve el software y Big Data entonces?" advierte un investigador en la Revista Latina de Comunicación Social (artículo en preparación). ¡Lo que se espera de la "inteligencia artificial" es justamente que la máquina nos evite este tedioso proceso! 

Sin embargo...
La BSA (Business Software Association), defensora del desarrollo de software a nivel mundial, encabeza una campaña de marketing para incentivar el uso del análisis Big Data, mostrando "sus potencialidades y en qué áreas ya ha comenzado a marcar diferencias". "La innovación en software continua encendiendo avances sin precedentes que transforman el mundo a nuestro alrededor, empoderándonos como individuos y haciendo crecer nuestras economías", declara. Y lo justifica en un informe denominado "¿Por qué son tan importantes los datos?", disponible para descargar gratis desde su página web, donde muestra cómo, mediante el seguimiento de más de 1.000 datos por segundo, se han logrado importantes avances en la medicina infantil, disminuir la congestión vehicular, aumentar el rendimiento de las cosechas desde Iowa a la India, desarrollar edificios de bajo consumo energético, ciudades inteligentes y mejorar la planificación de las trayectorias de vuelo en los aviones... todos casos donde el análisis semántico parece muy poco relevante. (FayerWayer, 11/11/2015)


Fuente: Catlin, J.: "Text Analytics: The Next Generation of Big Data", Inside Big data, 5/06/2015.

miércoles, 16 de septiembre de 2015

La acumulación comercial de datos personales


Al utilizar la web, los teléfonos y los televisores “inteligentes”, proporcionamos informaciones sobre nosotros mismos, que lo queramos o no. Siempre dejamos rastros de nuestra actividad en la web, sea que usemos las redes sociales o no. Y todas las empresas ahí presentes tratan de capturar esta información, que es ahora un valioso producto comercial. Y éste crecerá exponencialmente con los gadgets que formarán la llamada “Internet de las Cosas” o IoT (Internet of Things). Nuestras actividades online son fuente de conocimiento no solo para nosotros mismos sino para quienes nos prestan sus servicios en la red. 

Los datos recopilados en internet por las empresas se acumulan en grandes bases de datos que han pasado a llamarse “big data”. Google procesa 3.500 millones de búsquedas por día y almacena unos 10 exabytes de datos. Tiene más de un millón de servidores. Facebook agrega 500 terabytes de datos diariamente. Amazon mantiene los datos de compras de 152 millones de clientes en alrededor de 1 exabyte. (Fuente: Adeptia; Infographic Journal, 6/03/2015). 

Los captores de datos personales, en el mundo de internet, no son todos equivalentes ni tienen los mismos objetivos. Las empresas tratan de aprovechar los contactos logrados a través de la web o de sus apps para conocer mejor a sus posibles clientes y rentabilizar mejor la relación. Los gobiernos ofrecen y recopilan información para orientar su gestión y mejorar sus servicios... y realizan actividades de espionaje para proteger su seguridad. Los políticos están interesados en la opinión pública y en la forma de influir en ella. Y no olvidemos los piratas (hackers) que tratan de acceder a informaciones reservadas, servicios financieros, infraestructuras, etc. con las intenciones más oscuras. Las instituciones académicas, además de darse a conocer, ofrecen cada vez más alternativas de enseñanza a distancia y publican los resultados de sus proyectos de investigación. 

¿Cuáles son los usos que las empresas dan a las herramientas de análisis de datos? Principalmente (48%) el análisis del comportamiento de los consumidores (Betanews, 21/11/2014). La predicción del comportamiento de los consumidores es uno de los campos que más interesan y se espera que el marketing predictivo personalizado, utilizando los datos sociales, sea una de las áreas de negocio que más se beneficiarán del análisis de big data en los próximos años, a pesar de que el 71% de los directores de marketing de todo el mundo dicen que su organización no está preparada para hacer frente a esta explosión de datos en los próximos 3 a 5 años (Business Insider, 12/05/2014). Y es que analizar estas montañas de datos de modo que se obtenga información útil no es tarea fácil, como lo muestra el hecho de que los grandes “recopiladores” intenten recurrir a la inteligencia artificial, como ocurre con Facebook, Google, Twitter, LinkedIn y algunos otros, que están comenzando a utilizar estas técnicas avanzadas para desarrollar su capacidad de “aprendizaje profundo” a partir de los datos que acumulan en sus redes, desde las conversaciones hasta el reconocimiento facial de las fotos y la actividad en los juegos. Así, tienen el potencial de ser mucho más personalizados. Y hacen emerger nuevos campos de marketing: la agrupación de audiencia (clustering), el marketing predictivo y el análisis de los sentimientos frente a las marcas. 

El siguiente esquema muestra la complejidad del tema de la gestión de datos privados en el ambiente actual. Abordo más detalladamente este tema en mi libro "Secuestrados y secuestrados: Nuestros datos en internet" (PDF en ISSU y ePub). 


Nota: Mis posts dejarán de ser semanales. Mientras me sea posible aparecerán quincenalmente.

miércoles, 2 de septiembre de 2015

La Wikipedia cuestionada

Una pareja de connotados científicos estadounidenses realizó un análisis de la estabilidad y precisión de artículos de la Wikipedia en inglés durante diez años sobre siete temas: lluvia ácida, calentamiento global, evolución, deriva continental, heliocentrismo, teoría general de la relatividad y modelo estándar. Encontraron que "calentamiento global" alcanzó en un solo día un máximo de 231 cambios mientras que "evolución" llegó a 89. En cambio, "deriva continental" y "heliocentrismo" no pasaron de una veintena de cambios en un día. Publicaron estos resultado en PLOS ONE, concluyendo que "Ya que nuestra sociedad ha convertido a Wikipedia en una fuente primaria de información científica, es vital leer su contenido en forma crítica y con el entendimiento de que es dinámico y vulnerable al vandalismo y otras irregularidades". Advierten también que una alta tasa de cambios hace difícil a los editores expertos de Wikipedia monitorear la precisión de los artículos. Antes de citar la Wikipedia, conviene revisar la página de discusión asociada a cada artículo así como las fuentes señaladas al final. "Los usuarios deben ser conscientes de que el contenido de la Wikipedia puede ser muy dinámico; dos estudiantes podrían obtener, en cuestión de segundos, información diametralmente diferente sobre un tema científico controvertido. Los educadores deben asegurarse de que los estudiantes entiendan las limitaciones y usos adecuados de Wikipedia, sobre todo para cuestiones científicas controvertidas.

Según anota el diario "El Mercurio", a juicio de Eduardo Testart, vicepresidente de Wikimedia Chile, el estudio está sesgado porque modificar una página muy seguido no siempre tiene una connotación negativa. "Puede que se estén corrigiendo errores gramaticales o agregando contenido valioso". El estudio no gustó a la Fundación Wikimedia, la ONG sin fines de lucro detrás de la enciclopedia. A través de su vocera, Samantha Lien, criticó que la investigación solo examinó la tasa de ediciones sobre los temas y no su precisión. 


La misma Wikipedia señala, en su política sobre el uso académico aclara que "Wikipedia no es considerado una fuente creíble o autoritaria ... cualquier enciclopedia es un punto de partida para la investigación, no un punto final.

En años anteriores, otros estudios también habían advertido de los riesgos de basarse únicamente en la Wikipedia, aunque los autores admitían que podían ser una importante lectura para obtener una visión más amplia (background reading; cfr. F.Nielsen) 


Fuentes:
El Mercurio, 19/08/2015
Wikipedia:Academic use
Wilson, A.M., Likens, G.E.: Content Volatility of Scientific Topics in Wikipedia: A Cautionary Tale, Plos ONE 10(8), August 14, 2015, DOI: 10.1371/journal.pone.0134454
Nielsen, F.Å.: Scientific citations in Wikipedia, First Monday 12(8), 6 August 2007.