Se considera generalmente que la información no estructurada representa el 80% de los datos con que cuenta una organización. Con los servicios "en la nube" y el rastreo de las actividades de los clientes o "visitantes" en las redes sociales, estos datos han crecido a gran velocidad y resulta casi imposible que un grupo humano los pueda analizar sin recurrir a nuevos métodos informáticos. Ya me he referido a ello al hablar de los cambios en el acceso al conocimiento, a la ciencia de datos y en el post pasado sobre acumulación comercial de datos personales.
Si bien en muchos casos cada atributo registrado será el equivalente a una palabra o un par de ellas, también se darán múltiples casos en que serán más, lo cual dificulta aún más el análisis, obligando a entrar en el campo de la semántica, o sea de la comprensión del lenguaje, que deberá ser automática para poder generar en tiempo útil una información relevante.
Mediante la comprensión de la lengua, del contexto, y de cómo se utiliza el lenguaje en las conversaciones, el análisis de texto descubre el "qué", el "quién", el "dónde" y el "cuándo" de la conversación, "cómo" la gente se siente y "por qué" la conversación está sucediendo. Es ésto lo que permite que las conversaciones sean clasificadas y los temas de discusión identificados y lo que el programa de análisis automático debe lograr lo mejor posible, para así convertir los datos no estructurados en datos estructurados y permitir a las empresas "escuchar" globalmente las transmisiones que captan.
Aquí es donde entran a jugar un rol clave los sistemas de "inteligencia de negocios", que incluyen sistemas completos de análisis de textos, orientados al monitoreo de medios de comunicación social o de gestión de la "experiencia del cliente". Muchos proveedores incorporan ambos aspectos en un solo paquete, permitiendo a las empresas "escuchar" y responder a las necesidades o deseos de sus clientes.
- "El análisis de texto puede ser utilizado para desarrollar una mejor comprensión de los gustos, disgustos y motivaciones del cliente. Cambiar los incentivos del programa de fidelidad para que coincidan con los deseos de los clientes puede mejorar las ventas y aumentar la fidelización de clientes" nos dice Jeff Catlin, CEO de Lexalytic. una empresa que provee este tipo de servicios.
Hace poco, Facebook dió a conocer su sistema de análisis "Topic Data" que utiliza el análisis de texto para revelar lo que las audiencias están diciendo en esta red sobre eventos, marcas, sujetos y actividades. Los vendedores pueden utilizarlo para tomar mejores decisiones sobre sus productos y sus actividades.
IBM también impulsa el uso de su supercomputador Watson para este tipo de análisis, para lo cual compró Alchemy, y Microsoft compró Equivio, una compañía de análisis de texto que se centra en eDiscovery.
Y la tecnología de análisis de texto no sólo cubre el inglés, sino también muchos otros idiomas como francés, español, alemán, mandarín y japonés.
* Actualización / Complemento
Ha quedado demostrado, sin embargo, que los actuales sistemas de análisis automático de textos que ofrecen las empresas están lejos de ser realmente útiles como métodos de análisis de contenido. Estos sistemas (salvo quizás Watson) no tienen aún ninguna capacidad de crear categorías conceptuales a partir de lo leído. Solo pueden confeccionar estadísticas de frecuencia de las palabras y eventualmente de conexiones entre algunas en una misma oración ("segmentos"), con lo cual los resultados entregados siguen siendo poco útiles y sin justificación alguna en el caso de los "segmentos" computados (siendo los algoritmos desconocidos y no revelados). Para obtener algo más útil, se requiere definir palabras clave, lo cual obliga al usuario a leer al menos parte de los textos... e introducir desviaciones. "No vamos a poder obtener ninguna información útil a no ser que codifiquemos de forma manual, al menos mínimamente, los textos a partir de un tesauro con su estructura jerárquica y correspondencias que, también, hemos de crear nosotros mismos. Y la pregunta es, ¿de qué nos sirve el software y Big Data entonces?" advierte un investigador en la Revista Latina de Comunicación Social (artículo en preparación). ¡Lo que se espera de la "inteligencia artificial" es justamente que la máquina nos evite este tedioso proceso!
Sin embargo...
La BSA (Business Software Association), defensora del desarrollo de software a nivel mundial, encabeza una campaña de marketing para incentivar el uso del análisis Big Data, mostrando "sus potencialidades y en qué áreas ya ha comenzado a marcar diferencias". "La innovación en software continua encendiendo avances sin precedentes que transforman el mundo a nuestro alrededor, empoderándonos como individuos y haciendo crecer nuestras economías", declara. Y lo justifica en un informe denominado "¿Por qué son tan importantes los datos?", disponible para descargar gratis desde su página web, donde muestra cómo, mediante el seguimiento de más de 1.000 datos por segundo, se han logrado importantes avances en la medicina infantil, disminuir la congestión vehicular, aumentar el rendimiento de las cosechas desde Iowa a la India, desarrollar edificios de bajo consumo energético, ciudades inteligentes y mejorar la planificación de las trayectorias de vuelo en los aviones... todos casos donde el análisis semántico parece muy poco relevante. (FayerWayer, 11/11/2015)
* Actualización / Complemento
Ha quedado demostrado, sin embargo, que los actuales sistemas de análisis automático de textos que ofrecen las empresas están lejos de ser realmente útiles como métodos de análisis de contenido. Estos sistemas (salvo quizás Watson) no tienen aún ninguna capacidad de crear categorías conceptuales a partir de lo leído. Solo pueden confeccionar estadísticas de frecuencia de las palabras y eventualmente de conexiones entre algunas en una misma oración ("segmentos"), con lo cual los resultados entregados siguen siendo poco útiles y sin justificación alguna en el caso de los "segmentos" computados (siendo los algoritmos desconocidos y no revelados). Para obtener algo más útil, se requiere definir palabras clave, lo cual obliga al usuario a leer al menos parte de los textos... e introducir desviaciones. "No vamos a poder obtener ninguna información útil a no ser que codifiquemos de forma manual, al menos mínimamente, los textos a partir de un tesauro con su estructura jerárquica y correspondencias que, también, hemos de crear nosotros mismos. Y la pregunta es, ¿de qué nos sirve el software y Big Data entonces?" advierte un investigador en la Revista Latina de Comunicación Social (artículo en preparación). ¡Lo que se espera de la "inteligencia artificial" es justamente que la máquina nos evite este tedioso proceso!
Sin embargo...
La BSA (Business Software Association), defensora del desarrollo de software a nivel mundial, encabeza una campaña de marketing para incentivar el uso del análisis Big Data, mostrando "sus potencialidades y en qué áreas ya ha comenzado a marcar diferencias". "La innovación en software continua encendiendo avances sin precedentes que transforman el mundo a nuestro alrededor, empoderándonos como individuos y haciendo crecer nuestras economías", declara. Y lo justifica en un informe denominado "¿Por qué son tan importantes los datos?", disponible para descargar gratis desde su página web, donde muestra cómo, mediante el seguimiento de más de 1.000 datos por segundo, se han logrado importantes avances en la medicina infantil, disminuir la congestión vehicular, aumentar el rendimiento de las cosechas desde Iowa a la India, desarrollar edificios de bajo consumo energético, ciudades inteligentes y mejorar la planificación de las trayectorias de vuelo en los aviones... todos casos donde el análisis semántico parece muy poco relevante. (FayerWayer, 11/11/2015)
Fuente: Catlin, J.: "Text Analytics: The Next Generation of Big Data", Inside Big data, 5/06/2015.