Ciencia y Desarrollo
Noviembre-Diciembre 2011 Inicio Ligas de interés Artículos de interés Suscripciones
Cada mes
Editorial
Entrevista
Ciencia en México
Ciencia en el mundo
La ciencia y sus rivales
Tecnoinformación
Centros Conacyt
Reportaje
El lector científico
Productos de la ciencia
Reseñas
Portada
Noviembre-Diciembre 2011
Hélix
Tecnoinformación ELIO ATENÓGENES VILLASEÑOR GARCÍA*
Visualización de información en grandes colecciones
Tecnoinformación

Los registros son ordenados de acuerdo con una medida que busca establecer la relevancia de los documentos con respecto a una estrategia de búsqueda.

Una problemática que actualmente enfrentan las organizaciones, derivada del estrepitoso desarrollo de las Tecnologías de la Información y la Comunicación (TIC) y su popularización, consiste en aprovechar la información contenida en grandes colecciones de documentos en formato digital.

Una de las líneas de desarrollo tecnológico en TIC está representada por los sistemas de recuperación de información en grandes colecciones de documentos; ejemplos notables de ello son los motores de búsqueda de páginas web. Servicios como Google, u otros más especializados, como PubMed, han transformado la manera en la cual buscamos y extraemos información. Estos sistemas son útiles porque van desde realizar un trabajo escolar hasta contribuir en la investigación de temas de interés mundial, como podría ser el desarrollo de nuevas vacunas contra enfermedades infecciosas. El resultado de los sistemas de recuperación conforma una lista, que pudiera ser de cientos de miles o de millones de registros. Los registros son ordenados de acuerdo con una medida que busca establecer la relevancia de los documentos con respecto a una estrategia de búsqueda.

En las últimas décadas, la manera de producir, almacenar y procesar la información ha cambiado la manera de entender el mundo y la sociedad. El desarrollo de las denominadas Tecnologías de la información, así como el impacto que éstas tienen en todos los ámbitos de la vida de los seres humanos, se considera equiparable a los cambios sociales y culturales ocurridos durante el Renacimiento o la Revolución Industrial. Estamos en el umbral de una nueva era, en la cual la información y el conocimiento son bienes, y las TIC son medios para almacenar, gestionar y difundir dichos bienes. Este contexto nos plantea retos desconocidos y oportunidades inéditas para innovar en la manera de interactuar con la información.

El desafío que plantean las capacidades de recuperación en colecciones de documentos radica en aprovechar toda la información que se puede extraer del contenido de éstos. Es decir, que no sólo se recuperan aquellos documentos que satisfacen una necesidad de información expresada por una estrategia de búsqueda, sino que también se descubre conocimiento a partir del análisis de relaciones establecidas entre los documentos recuperados y los objetos que en ellos se mencionan.

¿QUÉ ES LA VISUALIZACIÓN DE INFORMACIÓN?
Como seres humanos, uno de los canales cognitivos más poderosos con los que contamos es nuestra visión. Una gran cantidad de procesos mentales se desencadenan a partir de ver una imagen. La frase "una imagen dice más que mil palabras" hace alusión a la capacidad que tenemos los seres humanos para comprender el mundo real a partir de lo que observamos. Dado el contexto tecnológico actual, surge la pregunta: ¿cómo aprovechar las capacidades cognitivas de la visión humana para adquirir conocimiento mediante el procesamiento automático de grandes volúmenes de información?

La visualización de información es un campo de investigación y desarrollo tecnológico, cuyo principal objetivo es el desarrollo de interfaces gráficas hombre- máquina que permiten a los usuarios explorar, buscar y manipular grandes bases de datos a través de búsquedas de información valiosas y oportunas para la toma de decisiones. Los sistemas de visualización de información deben permitir realizar inferencias de manera intuitiva a partir de lo que se ve ("what-you-see-is-what-you-get"); manipular información mediante una interfaz interactiva ("pointand- click and drag-and-drop"), y explorar todo el espacio de información mediante su representación en espacios virtuales ("fly-through").

VISUALIZACIÓN DE INFORMACIÓN PARA EL ANÁLISIS
DE GRANDES COLECCIONES DE DOCUMENTOS

Dada la naturaleza multidimensional de los documentos y la complejidad de las relaciones que se establecen entre ellos, el desarrollo de métodos para la visualización de información tiene como problema arquetípico la generación de representaciones visuales de grandes colecciones de documentos. Estos métodos buscan visualizar la colección de documentos para hacer evidentes las relaciones entre los mismos, así como entre los objetos que en ellos ocurren.

Un problema crítico por resolver mediante los métodos de visualización de información es el de proyectar documentos, representados como datos de alta dimensionalidad, en espacios de baja dimensión (menor o igual a 3). Esta proyección debe ser de tal forma que ayude a ganar entendimiento respecto de aspectos estructurales o dinámicos inherentes a la colección de documentos. Por ejemplo, una propiedad deseable de estos métodos es que "documentos similares" se proyecten en puntos cercanos. De esta manera, es posible identificar estructuras de agrupamientos y establecer clases de documentos similares entre sí. Para resolver el problema de proyectar objetos multidimensionales se han aplicado con éxito métodos basados en redes neuronales artificiales SOM (Self-Organizing Maps, por sus siglas en inglés). Estas redes neuronales se basan en un modelo simplificado de la corteza visual del cerebro humano.

Un ejemplo de aplicación lo representa el análisis de documentación científica y tecnológica (artículos de investigación y patentes). En este caso, la aplicación de métodos de visualización de información permite ganar entendimiento sobre la estructura y la dinámica de fenómenos complejos, como la generación de conocimiento y el desarrollo tecnológico. En México, se está desarrollando tecnología que implementa estos métodos en el análisis de grandes conjuntos de documentos, en particular, en referencias de documentos científicos. El proyecto ViBlioSOM (Visualización Bibliométrica con el SOM) es un esfuerzo conjunto de un grupo de investigación de la Facultad de Ciencias de la UNAM y el Instituto FInlay, de La Habana, Cuba. Se trata de un proyecto que tiene como principal objetivo el desarrollo de un sistema que integre redes neuronales SOM al análisis y la visualización de grandes conjuntos de registros bibliográficos.

El sistema ViBlioSOM se está utilizando para analizar la producción científica en campos específicos de interés mundial, por ejemplo, la investigación en torno a una nueva vacuna contra la tuberculosis.

 
Ediciones anteriores Para publicar