Desarrollan en la UMA un sistema BigData adaptable a la investigación

Fundación Descubre

El departamento de arquitectura de computadores de la Universidad de Málaga, en colaboración con la empresa austríaca RISC Software GmbH, ha desarrollado un nuevo procedimiento para el tratamiento de grandes volúmenes de datos. Este entorno virtual se ajusta a las necesidades de cada proyecto de investigación, ya que sólo se utilizan los recursos necesarios de una manera personalizada y mejora el rendimiento de los actuales equipos utilizados por los científicos.

El artículo publicado en la revista Future Generation Computer Systems titulado ‘Building an open source cloud environment with auto-scaling resources for executing bioinformatics and biomedical workflows’ detalla las herramientas que han desarrollado.

Entre otras aplicaciones, el sistema permite comparar genomas de distintas especies en las que intervienen millones de secuencias genéticas y desarrollar estudios sobre enfermedades teniendo en cuenta todas las relaciones que se dan en la expresión de distintos genes, reduciendo el tiempo de trabajo hasta en siete veces. Dentro de las investigaciones, los expertos han podido comparar el cromosoma X de distintas especies de mamíferos en tan sólo dos horas y media.

“En el campo de la biomedicina es necesario el estudio de asociaciones entre datos genotípicos y fenotípicos. Existen casos de enfermedades mendelianas, como la hemofilia, donde hay una relación directa entre variaciones genéticas simples y la enfermedad. Sin embargo, otras enfermedades más complejas, como la diabetes, requieren observar la relación entre múltiples variaciones genéticas y el fenotipo. En estos estudios, el sistema presentado es capaz de proveer todo su potencial”, indica a la Fundación Descubre el investigador de la Universidad de Málaga Oswaldo Trelles, autor del artículo.

El modelo consiste en la unificación de distintas tecnologías ya existentes para su aplicación en el campo de la biomedicina y la genética. Están basadas en el modelo conocido como Big-Data, sistemas para el procesado de una gran cantidad de datos y con multitud de relaciones entre ellos. Las dificultades más habituales vinculadas a la gestión de información de gran tamaño son los altos costes del material informático que se necesita para la transmisión de datos, el almacenamiento y su procesamiento. La complejidad del análisis y la visualización de los enlaces que se establecen suponen otros problemas a los que deben enfrentarse los científicos.

A través del nuevo método computacional, los investigadores no necesitan invertir en grandes instalaciones ni requieren personal específico para el mantenimiento informático. Podrán configurar el sistema según las especificaciones de cada proyecto, campo científico y requisitos propios de cada laboratorio con un coste sensiblemente inferior que si adquieren los equipos.

Relaciones y comparación en el genoma
Las relaciones complejas de la genética son muy difíciles de definir. Sin embargo, el sistema es capaz de mostrar de una manera directa y rápida todas las conexiones entre sí. Así, se podrán crear los esquemas genéticos de multitud de enfermedades.

En el caso de las alergias, por ejemplo, intervienen distintos genes que se expresan de una manera distinta y provocan además, la expresión en cadena de otros que potencian una respuesta concreta en el organismo. En este tipo de enfermedades, en las que interviene más de un gen, el sistema es capaz de realizar análisis epistáticos. Es decir, observar la interacción entre diferentes genes al expresar un carácter fenotípico. También puede analizar cómo la actuación de un gen se ve modificada por la acción de uno o varios genes en un proceso concreto.

El proyecto, además, permite la creación de árboles filogenéticos. Estos esquemas muestran las relaciones evolutivas entre varias especies con una ascendencia común, como podría ser el caso de primates y humanos. En algunos casos, se observan huecos evolutivos, lo que plantea la probabilidad de la existencia de secuencias genéticas desaparecidas o que han evolucionado hasta perderles el rastro.

Por tanto, la genómica, área que se encarga de la secuenciación del genoma, se ve favorecida por el nuevo sistema, ya que requiere de una gran cantidad de memoria necesaria en el hardware y un tiempo amplio de procesado que ralentiza los trabajos. En ocasiones, es necesario estudiar largas cadenas genéticas, pero las limitaciones actuales no permiten tampoco la comparación de grandes secuencias.

Con la nueva tecnología se puede tener información sobre los puntos de interrupción, que indican una secuencia desconocida y que necesita ser incluida. Además, también es posible obtener la estimación de frecuencias, es decir, cuándo se repiten las cadenas de genes, sin que exista, en principio, ninguna limitación en su extensión.

El ADN del Big Data
El sistema se basa en el Cloud computing (nube), una infraestructura compartida por múltiples usuarios y que permite la elasticidad y adaptación a cada uno en concreto. La nube incluye multiprocesadores lo suficientemente potentes como para trabajar con grandes volúmenes de datos en poco tiempo, como los que se requieren en biomedicina o genómica.

De esta manera, los investigadores obtienen acceso a los componentes virtualizados para construir con ellos su propia plataforma, según sus necesidades. Así, pueden utilizar soluciones informáticas económicas y fáciles de ampliar, ya que toda la complejidad y el coste asociado a la administración del hardware es responsabilidad del proveedor del servicio. Si la escala o el volumen de actividad de la investigación crece o decrece, el producto se adapta.

Los resultados que muestra el estudio se enmarcan dentro del programa europeo Marie Curie que lidera la Universidad de Málaga.

Contacte con nosotros