Campo DC | Valor | Idioma |
dc.contributor.advisor | Walter, Maria Emília Machado Telles | pt_BR |
dc.contributor.author | Vieira, Lucas Maciel | pt_BR |
dc.date.accessioned | 2024-08-13T21:09:18Z | - |
dc.date.available | 2024-08-13T21:09:18Z | - |
dc.date.issued | 2024-08-13 | - |
dc.date.submitted | 2023-02-28 | - |
dc.identifier.citation | VIEIRA, Lucas Maciel. Exploring relevant features of colorectal cancer from clinical and biological data: a bioinformatics approach. 2023. 104 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2023. | pt_BR |
dc.identifier.uri | http://repositorio2.unb.br/jspui/handle/10482/49826 | - |
dc.description | Tese (Doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023. | pt_BR |
dc.description.abstract | O câncer colorretal (CRC) é um dos tipos de câncer mais comuns e letais em todo o mundo,
sendo o segundo câncer mais comum no Brasil [1]. O CRC é um câncer heterogêneo, que
se instala na parte inferior do intestino grosso e pode ser classificado de acordo com seu
campo anatômico, como câncer de cólon, de reto ou na junção retossigmoide. O tipo
mais frequente de CRC é o adenocarcinoma, que corresponde a 90% dos casos. A maioria
das mortes causadas por CRC acontece quando esse entra em estado de metástase. No
entanto, se detectado em seus estágios iniciais, a sobrevida do paciente com CRC pode
melhorar consideravelmente. Esta doença pode ser influenciada por diversos aspectos
ambientais, tais como: hábitos alimentares, idade e peso. Normalmente, o tratamento
recomendado para pacientes com CRC é a cirurgia para sua remoção e, depois, o uso de
quimioterapia, porém o tratamento pode diferir de acordo com seu campo anatômico. O
diagnóstico do CRC em um campo anatômico incorreto pode levar o médico a prescrever
um tratamento não recomendado ao paciente, o que pode afetar a sua taxa de mortalidade.
Para auxiliar o prognóstico, prevenção e tratamento de CRC, é fundamental entender os
mecanismos moleculares e os indicadores clínicos que afetam o desenvolvimento do CRC.
Quanto aos aspectos biológicos do CRC, podemos descrever o impacto dos RNAs codificadores e não-codificadores nos mecanismos subjacentes à doença. Em específico, podemos destacar três moléculas: RNAs longos não codificadores (em inglês, long non-coding
RNAs - lncRNAs), micro RNAs (miRNAs) e RNAs mensageiros (em inglês, messenger
RNAs - mRNAs). Nos eucariotos, os mRNAs maduros são formados a partir do prémRNA que, por sua vez, é produzido a partir do processo de transcrição passar por um
processo conhecido como excisão (em inglês, splicing), que remove algumas regiões (íntrons) do pré-mRNA e liga outras regiões (exons), formando assim o mRNA maduro. O
processo de splicing possibilita gerar mais de uma proteína a partir de um único gene, em
um processo conhecido como excisão alternativa (em inglês, alternative splicing. Por sua
vez, as proteínas coordenam quase todos os processos vitais no organismo, sendo utilizadas
em reações metabólicas e afetando diversos processos biológicos, como o desenvolvimento
de doenças.
Os miRNAs desempenham um papel essencial na expressão gênica, mais especificamente, ligando-se aos mRNAs e iniciando os processos de inibição ou degradação de seu
alvo. Por sua vez, os lncRNAs não estão diretamente presentes neste processo de regulação da expressão de mRNA, mas desempenham papéis essenciais no organismo, como a
alteração das funções de outras moléculas e, assim, afetam a expressão de proteínas indiretamente, o que pode contribuir para o surgimento e supressão de doenças. Considerando
o papel específico de cada uma das moléculas descritas no desenvolvimento de doenças,
estudos recentes destacaram a importância de um mecanismo conhecido como redes de
RNAs endógenos concorrentes (em inglês, competing endogenous RNAs - ceRNAs), nos
quais os lncRNAs, os miRNAs e os mRNAs interagem entre si. Nesse mecanismo, os miRNAs, que se ligam aos mRNAs pelos binding sites, podem também se ligar aos ceRNAs,
assim, regulando indiretamente a expressão dos mRNAs. A identificação de redes ceRNA
relacionadas ao surgimento do CRC e seus mecanismos subjacentes podem auxiliar os
médicos a entender melhor a doença e realizar um melhor prognóstico do paciente. Na
literatura, podemos encontrar alguns estudos que usam abordagens baseadas em bioinformática para criar redes ceRNAs e auxiliar a identificação de biomarcadores para o câncer
de cólon, reto e o câncer colorretal em geral.
Embora alguns estudos tenham foco na construção de redes ceRNA, até onde sabemos, nosso estudo foi o primeiro a estabelecer redes ceRNAs específicas para: (i) cólon; (ii)
reto; e (iii) junção retossigmóide, além de relacioná-los com mecanismos biológicos específicos, a fim de esclarecer as diferenças e fatores comuns entre essas diferentes localizações
anatômicas.
Por outro lado, alguns estudos sugerem o uso de métodos de aprendizagem de máquina
e também o uso de características clínicas para predizer marcadores que podem ser usados
para prognóstico de pacientes com CRC [9, 10, 11]. Especificamente, Gründner et al. [9]
sugeriram um método que combina características biológicas e clínicas para predizer marcadores de prognóstico de pacientes com CRC na África do Sul. Esses estudos descreveram
bons resultados obtidos a partir de modelos de predição. Tanto quanto saibamos, nosso
estudo foi o primeiro que usou dados abertos e métodos de aprendizagem de máquina
para predizer a reincidência de CRC e a sobrevivência do paciente usando marcadores biológicos extraídos de redes ceRNAs de câncer de cólon, de reto e na junção retossigmoide,
combinados com características clínicas.
Nesta tese, na primeira etapa, propusemos um pipeline utilizando dados de livre acesso
de pacientes com CRC, extraídos do banco de dados The Cancer Genome Atlas (TCGA),
para construir redes ceRNAs específicas para o CRC e marcadores biológicos que afetam
o prognóstico do paciente. Nosso objetivo foi o de realizar uma análise para identificar
moléculas que possam ser usadas como marcadores biológicos para os três sítios anatômicos do CRC, cólon, reto e junção retossigmoide. Para construir tais redes e propor os
marcadores biológicos, a expressão de RNA e os dados clínicos dos pacientes com CRC
foram coletados. Os perfis de expressão de RNA foram produzidos por meio de ferramentas de análise que utilizam técnicas de bioinformática. Em seguida, encontramos redes
ceRNA específicas para cada campo anatômico, para as quais, como dados de saída, obtivemos as redes ceRNA e as moléculas nelas presentes. Após essa etapa, foi realizada
uma análise funcional, onde identificamos potenciais vias metabólicas relacionadas ao
surgimento de câncer, as quais têm participação das moléculas obtidas na etapa anterior.
Finalmente, uma análise de sobrevida global para identificar o impacto dessas moléculas
no prognóstico do paciente foi realizada, resultando em uma lista de potenciais marcadores
biológicos.
Nessa etapa, ficaram evidenciados diversos potenciais biomarcadores que afetam o
prognóstico do paciente em câncer de cólon, de reto e na junção retossigmoide. Além
disso, redes ceRNA específicas para cada campo anatômico foram construídas, e foram
identificadas diferentes vias biológicas que destacam diferenças no comportamento do
CRC nos diferentes campos anatômicos, reforçando assim, a importância de identificar
corretamente o campo anatômico em que o tumor ocorre. Como resultados, geramos
um grupo de potenciais biomarcadores biológicos que afetam o prognóstico do CRC, em
particular, podemos destacar: hsa-miR-1271-5p, NRG1, hsa-miR-130a-3p, SNHG16 e
hsa-miR-495-3p para câncer de cólon; E2F8 para câncer retal; e DMD e hsa-miR-130b-3p
para câncer na junção retossigmoide.
Com a lista de potenciais marcadores biológicos que podem afetar no prognóstico de
CRC, prosseguimos para a segunda etapa desta tese, em que propusemos um pipeline
para prever a reinicindiva do CRC e a sobrevida dos pacientes, utilizando métodos de
aprendizagem de máquina supervisionados. Fatores clínicos, como idade e peso, assim
como fatores biológicos, podem afetar o prognóstico e o surgimento do CRC. Para melhor
entender os mecanismos do CRC e identificar o impacto, tanto dos fatores clínicos, quanto
dos fatores biológicos em seu prognóstico, usamos as características clínicas do paciente
combinadas com os marcadores biológicos encontrados no passo anterior, como características biológicas, para treinar nossos modelos. Para alcançar um maior desempenho
na predição e na possibilidade de interpretação dos resultados propostos, avaliamos e
comparamos os seguintes algoritmos de aprendizagem de máquina: Random Forest - RF,
Logistic Regression - LR, Support Vector Machine - SVM, K-Nearest Neighbors - KNN,
Decision Tree - DT e Adaptative Boosting - AB. Para encontrar a importância de cada
característica durante a construção dos modelos de predição, primeiro foi realizada uma
análise de seleção de características, para filtrar e classificar quais dessas características
de fato tinham impacto no modelo de predição construído. Com essas características biológicas e clínicas relevantes selecionadas, construímos os modelos de aprendizagem de
máquina e avaliamos seu desempenho. Finalmente, como resultado, geramos modelos
de aprendizagem de máquina para prever a reincidência do CRC e a sobrevivência do
paciente, e uma lista de potenciais características biológicas e clínicas relevantes para o
prognóstico do paciente.
Nesta etapa, identificamos diversos potenciais marcadores biológicos e clínicos como
importantes na reincindiva do CRC e na sobrevida do paciente. Quanto à importância das
características, identificamos: SNHG16, hsa-miR-130b-3p, hsa-miR-495-3p e KCNQ1OT1
como características biológicas; e idade, etnia, estágio patológico, quimioterapia, altura
e peso, contagem positiva de linfonodos e contagem de linfonodos como características
clínicas. Finalmente, usando LR e RF, alcançamos uma precisão de 90% e 82% para
predição da sobrevivência do paciente e da reincidiva do CRC, respectivamente. Além
disso, o uso dos seis algoritmos de apredizagem de máquina propostos mostrou um bom
desempenho geral, em específico, o RF apresentou bons resultados, o que também foi
destacado em outros estudos [9, 10, 11].
Por fim, a pesquisa desenvolvida neste tese mostrou que o uso de técnicas de bioinformática em conjunto com o uso de algoritmos de aprendizagem de máquina pode melhorar
a interpretação dos mecanismos presentes no CRC. No entanto, devemos destacar alguns
fatores limitantes com os quais nos deparamos, como a quantidade de dados disponíveis
para pacientes com câncer de junção rectosigmoide e a especificidade regional dos dados clínicos dos pacientes, visto que o banco de dados utilizado continha informações
principalmente de pacientes dos Estados Unidos. Perspectivas de uso dos métodos desenvolvidos nesta tese são, primeiro, os pipelines propostos poderiam fornecer aos médicos
um entendimento melhor dos mecanismos subjacentes ao CRC em seus diferentes campos
anatômicos. Além disso, nossos modelos poderiam ser usados para auxiliar na predição
de prognóstico do paciente. Por fim, executar esses pipelines com dados de pacientes
brasileiros poderia ajudar os médicos a entender melhor as características específicas no
surgimento do CRC e prognóstico dos pacientes que vivem nas diferentes regiões do Brasil. | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Exploring relevant features of colorectal cancer from clinical and biological data : a bioinformatics approach | pt_BR |
dc.type | Tese | pt_BR |
dc.subject.keyword | RNAs não-codificadores | pt_BR |
dc.subject.keyword | MicroRNA | pt_BR |
dc.subject.keyword | RNA mensageiro | pt_BR |
dc.subject.keyword | RNA endógeno concorrente | pt_BR |
dc.subject.keyword | Aprendizagem de máquina | pt_BR |
dc.subject.keyword | Câncer colorretal | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | Colorectal cancer (CRC) is one of the most common and lethal types of cancer worldwide,
being the second most common cancer in Brazil [1]. CRC is a heterogenous cancer that
affects the lower part of the large bowel and can be classified according to its anatomical
site as: colon, rectum, or rectosigmoid junction cancer. The most common type of CRC is
adenocarcinoma, accounting for 90% of cases. Most CRC deaths are related to metastases
and, if early detected, patient survival rates increase considerably. This disease can be
impacted by many environmental factors, such as: eating habits, age, and weight. Treatment can differ depending on anatomical site and usually consists of surgery followed by
chemotherapy. Inaccurate identification of the CRC anatomical site can lead to under or
overtreatment, which can impact the patient’s likelihood of mortality. The understanding of the molecular mechanisms and external factors that affect CRC development and
progression is crucial to improving CRC prognosis, prevention, and treatment.
Considering the biological aspects of CRC, three types of coding and non-coding RNAs
are of particular impact on the disease’s underlying mechanisms. Highlighting: long noncoding RNAs (lncRNAs), micro RNAs (miRNAs), and messenger RNAs (mRNAs). In
eukaryotes, mature mRNAs are formed after the pre-mRNA generated from the transcription undergoes a process known as splicing, which removes some regions (introns)
of the pre-mRNA, while binding others (exons), thus forming the mature mRNA. The
splicing process can generate more than one protein from a single gene in a process known
as alternative splicing. The generated proteins are then used to regulate the organism’s
functions through use in metabolic reactions, by affecting many biological processes, such
as disease development.
MiRNAs play an essential role in gene expression, by binding to mRNAs and initiating
the inhibition or degradation of their target. In contrast, lncRNAs are not directly portrayed in this mRNA expression regulation process but play essential roles, such as altering
other molecules’ functions and therefore affecting protein expression and the development
and suppression of disease. Given the specific role of each RNA described above in disease
development, recent studies also highlight the importance of a mechanism known as competing endogenous RNA (ceRNA) networks, in which lncRNAs, miRNAs, and mRNAs interact. In this mechanism, in addition to binding to mRNAs, miRNAs can also bind
to ceRNAs, which then act as modulators of miRNAs and therefore indirectly regulate
mRNA expression. The identification of ceRNA networks related to CRC development
and its underlying mechanisms can help doctors better understand the disease and patient’ prognosis. Some studies have been carried out using bioinformatic approaches to
analyze and create ceRNA networks and to indicate potential prognosis biomarkers for
colon, rectal, and CRC in general [2, 3, 4, 5, 6, 7, 8].
Although some studies were done with ceRNA network constructions in mind, to the
best of my knowledge, this study is the first to establish specific ceRNA networks for:
(i) colon; (ii) rectum; and (iii) rectosigmoid junction, and to relate them with specific
biological mechanisms in order to identify differences and common factors between these
sites.
Other studies suggest the use of machine learning methods using clinical features to
predict CRC patient prognosis [9, 10, 11]. Specifically, Gründner et al. [9] explored a
method that combines biological and clinical features to predict prognosis characteristics
for CRC patients from South Africa. These studies showed promising results in predicting
CRC patient’ prognosis, but to the best of my knowledge, this study is to use open data
and machine learning to predict CRC recurrence and patient survival by using biological
markers extracted from the colon, rectal and rectosigmoid cancer ceRNA networks in
combination with clinical features.
In this thesis, I begin by proposing a pipeline using open-access data from patients
with CRC extracted from The Cancer Genome Atlas (TCGA) to construct CRC-specific
ceRNA networks and potential biological markers that affect patient prognosis. Through
analysis, I aim to identify RNAs that can be used as biological markers for the three CRC
anatomical sites: colon, rectum, and rectosigmoid junction. To construct these networks
and propose the biological markers, I collected RNA raw expression and clinical data from
CRC patients. Using bioinformatic analysis tools to assess RNA expression profiles and
building a ceRNA network for each CRC anatomical site, generated output in the form of
ceRNA networks and the RNAs present on them. Next, through a functional enrichment
analysis I assessed the potential biological pathways activated by the molecules obtained
in the previous step. Finally, an overall survival analysis to identify the impact of these
RNAs on patient prognosis, produced a list of potential biological markers as output.
Overall, the first pipeline of this thesis resulted in: the identification of several potential
prognostic markers for colon, rectum, and rectosigmoid junction cancer; the construction
of specific ceRNA networks for each anatomical site; and the identification of biological
pathways that highlight differences in CRC behavior at distinct anatomical sites, thus
reinforcing the importance of correct identification of tumor site. The output of this pipeline consisted in a group of potential biological markers involved in CRC prognosis
namely, the following site-specific prognosis biomarkers are of note: hsa-miR-1271-5p,
NRG1, hsa-miR-130a-3p, SNHG16, and hsa-miR-495-3p in the colon; E2F8 in the rectum;
and DMD and hsa-miR-130b-3p in the rectosigmoid junction.
After generating the list of potential biological markers related to CRC prognosis,
I proceed to the second part of this thesis: the proposal of a pipeline to predict CRC
recurrence and patient survival using supervised machine learning (ML) methods. Clinical
factors such as age and weight, as well as biological factors, can affect CRC progression
and prognosis. To better CRC mechanisms and to identify the impact of both clinical
and biological factors in prognosis, I used patient clinical features combined with the
previously found biological markers as biological features to train the ML models. To
improve predictive performance and interpretability of the proposed findings I evaluated
and compared the following ML algorithms: Random Forest (RF), Logistic Regression
(LR), Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Decision Tree (DT),
and Adaptative Boosting (AB). To establish the importance of each feature while building
the models to predict CRC recurrence and patient survival, first, I performed a feature
extraction analysis to filter and rank the actual impact of these features on the constructed
prediction model. With the selected relevant biological and clinical features in hand, I then
constructed the ML models and evaluated their performance. As output, this pipeline
generated the ML models to predict CRC recurrence and patient survival along with a
list of potential biological and clinical features relevant to patient prognosis.
Overall, the second pipeline resulted in the identification of several potential biological
and clinical markers as important in CRC recurrence and patient survival. For feature
importance: SNHG16, hsa-miR-130b-3p, hsa-miR-495-3p, and KCNQ1OT1 stood out
as biological features; and age, ethnicity, pathological stage, chemotherapy, height and
weight, positive lymph node count and lymph node count as clinical features. Finally, LR
and RF achieved a best accuracy of 90% and 82% for predicting patient survival and CRC
recurrence respectively. Also, the six proposed ML algorithms showed good performance
overall, specifically, LR and RF displayed good overall results, which is coherent with
findings from other studies [9, 10, 11].
This study strongly suggests that the use of bioinformatic approaches should be concurrently used with ML algorithms to enhance interpretation of CRC mechanisms and
patient prognosis. However, some limiting factors are noteworthy: the amount of available data, being that the number of available patients for certain anatomical sites was
low; and that the data mainly consisted of patients from the USA. Following the proposed pipelines, doctors can better understand the underlying mechanisms of CRC at
its anatomical sites, and also use our model to help predict patient prognosis. Finally, running these pipelines with Brazilian patient data could improve CRC data interpretation, especially in circumstances of diversity and inequality in a country’s demographic
landscape, which can affect CRC prognosis. | pt_BR |
dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|