Buena parte de los datos sobre cáncer no están estructurados

Una revisión analiza la tecnología de última generación en minería de datos para acelerar el descubrimiento de nuevos fármacos.

Redacción. Madrid | 21/06/2017 14:08

Martin Krallinger, jefe de la Unidad de Minería de Textos en Biología del CNIO. (CNIO)

En un artículo publicado en Chemical Reviews, la Unidad de Minería de Textos en Biología del Centro Nacional de Investigaciones Oncológicas (CNIO), junto con investigadores del Centro de Investigación Médica Aplicada (CIMA) de la Universidad de Navarra y el Barcelona Supercomputing Centre (BSC-CNS), ha publicado una revisión exhaustiva sobre las metodologías de vanguardia que impulsan los motores de búsqueda de compuestos químicos, denominados sistemas de reconocimiento de entidades y minería de textos.

El creciente campo de las aplicaciones de big data en la investigación biomédica, junto con el uso del aprendizaje automático y las tecnologías de inteligencia artificial para la minería de textos, ha dado lugar a numerosas herramientas prometedoras. "Esta revisión -señalan los autores- pretende ser una guía práctica para que los investigadores se adentren en el mundo de los datos científicos y también para ayudarles a prever los próximos pasos en este emergente campo".

"A través del lanzamiento de los Gold Standard datasets y de la organización de varios eventos de desafío comunitario, la Unidad de Minería de Textos en Biología ha desempeñado un papel crítico en el desarrollo y evaluación de los sistemas actuales de minería de textos en química", explica Martin Krallinger, jefe de la Unidad y coprimer autor de la revisión.

Bases de datos

Buena parte de los datos biomédicos relevantes para el cáncer sólo está disponible de forma no estructurada. Este tipo de datos incluye la literatura científica, las patentes de compuestos de uso médico, registros electrónicos sanitarios o documentos de ensayos clínicos. De hecho, cada año, más de 20.000 nuevos compuestos aparecen en las revistas científicas.

Transformar esta información no estructurada en bases de datos que puedan ser procesadas de forma más eficiente por los ordenadores o consultadas por la gente es crucial para cosas como la identificación de nuevas dianas farmacológicas y de efectos secundarios o encontrar nuevos usos para fármacos ya aprobados.

Los compuestos químicos y los fármacos son elementos centrales para la investigación biomédica. De hecho, "la construcción de grandes bases de datos que integren información química y datos biológicos y clínicos es crucial para la identificación y validación de nuevas dianas terapéuticas así como para acelerar el descubrimiento de nuevos fármacos", señala Julen Oyarzabal, director de Ciencia Traslacional del CIMA y colíder de este informe.