Uma colaboração entre investigadores do INESC-ID, do Instituto Superior Técnico – Universidade de Lisboa, do Wellcome Sanger Institute (Cambridge, UK), e do ProCan do Children’s Medical Research Institute, em Sydney, deu origem a um novo modelo, baseada em aprendizagem automática, que promete revolucionar a compreensão das células cancerígenas.
O método, denominado Multi-Omic Synthetic Augmentation (MOSA), utiliza deep learning para extrair informações adicionais de grandes conjuntos de dados, recolhidos por cientistas em laboratório. “Este trabalho introduz pela primeira vez uma abordagem de deep learning generativo que integra e aumenta sinteticamente conjuntos de dados multi-ómicos em grande escala, para gerar dados sintéticos e descobrir novas vulnerabilidades no cancro”, explica Emanuel Gonçalves, investigador do INESC-ID e professor no Técnico.
Omics refere-se a qualquer tipo de dados complexos sobre sistemas biológicos. Por exemplo, genómica estuda o ADN e proteómica refere-se aos dados sobre proteínas. Multi-ómica combina dois ou mais destes conjuntos de dados, permitindo a obtenção de novos conhecimentos através de métodos computacionais avançados.
O MOSA foi concebido para resolver um problema comum em bases de dados multi-ómicas: integração de múltiplos tipos de dados biológicos, até sete tipos diferentes são integrados neste estudo, precisamente uma das características inovadoras deste Devido às complexidades associadas à recolha de dados ‘ómicos’, apenas um conjunto pequeno de células cancerígenas apresenta todos os tipos de medições, deixando o conjunto de dados incompleto.
Os investigadores explicam que com o MOSA, foi possível sintetizar artificialmente dados para preencher esses dados em falta, aplicando-o a mais de 1,500 linhas celulares de cancro, representando uma vasta gama de tipos de cancro. Este processo expandiu o conjunto total de dados em 32,7%, com um custo diminuto comparativamente ao que seria necessário para realizar os testes laboratoriais.
A descoberta foi recentemente publicada na revista científica Nature Communications e segundo o investigador principal do Children’s Medical Research Institute, na Austrália, Zhaoxiang (Simon) Cai, “os dados aumentados resultaram numa maior precisão na previsão de como as células cancerígenas responderiam a tratamentos e abriram novas oportunidades para descobrir potenciais alvos terapêuticos.”
O contributo português partiu da tese de mestrado de Sofia Apolinário, então aluna do Técnico e investigadora do INESC-ID, que se dedicou a criar o método de deep learning para reduzir a dimensão do conjunto de dados (data set) e importação dos dados em falta. “Quis usar um método inovador, que não existisse ainda. Percebi que era uma área muito promissora, ainda pouco explorada e que permitia obter resultados rápidos”, conta.
Tagus Park – Edifício Tecnologia 4.1
Avenida Professor Doutor Cavaco Silva, nº 71 a 74
2740-122 – Porto Salvo, Portugal
online@medianove.com