Master's research developed at the Faculdade de Computação (FACOMP) of the Instituto de Ciências Exatas e Naturais (ICEN) of the Universidade Federal do Pará (UFPA).
Paper available at PLOS ONE.
- Course: Master's degree in Computer Science
- Defense date: June 27st, 2024 @ 10:00 AM.
- Title: Investigando Peptídeos de Penetração Celular com Deep Learning explorando descritores moleculares baseados em sequência e estrutura.
Cell-penetrating peptides comprise a group of short amino acids capable of naturally traversing the lipid bilayer that protects cells, sharing physicochemical and structural properties, with various pharmaceutical applications, particularly in delivering therapeutic substances to cells. Over time, investigations into molecular descriptors based on peptide sequence and structure have not only improved the performance of in silico classifiers, with reduced computational complexity due to the selection of these attributes in the construction of molecular descriptor sets, but also enhanced our understanding of membrane permeability. Additionally, the adoption of novel machine learning techniques has led to enhanced performance in classifications, such as the construction of ensemble models through the combination of estimators, the utilization of deep learning, the implementation of overfitting treatment techniques, and hyperparameter tuning. In this study, the molecular properties including nitrogen count, oxygen count, and hydrophobic moment on the Eisenberg scale were examined together with other sequence- and structure-based descriptors, which are addressed in the state of the art to predict cell penetrating peptides. The proposed ConvBoost-CPP classifier, using the mentioned molecular properties, combines the estimates of an improved Convolutional Neural Network with the estimates of an XGBoost model resulting in the superiority of ConvBoost-CPP compared to classifiers based on machine learning and deep learning previously published. Furthermore, the development of a set containing nitrogen count, oxygen count and hydrophobic moment on the Eisenberg scale added to ten molecular descriptors, resulted in an increase in accuracy from 88% to 91.2% in cross-validation and 82.6% to 91.3% in independent test.
Keywords: Cell Penetrating Peptides, Molecular Descriptors, Bioinformatics, Chemoinformatics, Deep Learning, Machine Learning.
Os peptídeos de penetração celular compreendem um grupo de aminoácidos curtos com capacidade de atravessar naturalmente a bicamada lipídica que protege as células, compartilhando propriedades físico-químicas e estruturais, e possuindo diversas aplicações farmacêuticas, particularmente a entrega de substâncias terapêuticas às células. Ao longo do tempo, as investigações sobre descritores moleculares baseados em sequência e estrutura peptídica proporcionaram não apenas uma melhoria no desempenho dos classificadores in silico, com uma menor complexidade computacional devido seleção destes atributos na construção de conjuntos de descritores moleculares, mas também uma melhor compreensão sobre a permeabilidade da membrana. Adicionalmente, o emprego de novas técnicas de aprendizado de máquina promove melhor performance nas classificações, como a construção de modelos ensemble por meio da combinação de estimadores, o uso de aprendizagem profunda, a utilização de técnicas de tratamento de overfitting e busca de hiperparâmetros. Neste estudo, foram investigadas as propriedades moleculares quantidade de nitrogênio, quantidade de oxigênio e momento hidrofóbico na escala de Eisenberg em conjunto com outros descritores baseados em sequência e estrutura peptídica que são explorados no estado da arte para prever peptídeos que penetram a membrana celular. O classificador ConvBoost-CPP proposto, utilizando as propriedades moleculares mencionadas, combina as estimativas de uma Rede Neural Convolucional aprimorada com as de um modelo XGBoost resultando na superioridade do ConvBoost-CPP em relação a classificadores baseados em machine learning e deep learning anteriormente publicados. Ademais, o desenvolvimento de um conjunto contendo quantidade de nitrogênio, quantidade de oxigênio e momento hidrofóbico na escala de Eisenberg adicionados à dez descritores moleculares resultou em um aumento na acurácia de 88% para 91,2% na validação cruzada e 82,6% para 91,3% em teste independente.
Palavras-chave: Peptídeos de Penetração Celular, Descritores Moleculares, Bioinformática, Quimioinformática, Aprendizado Profundo, Aprendizado de Máquina.
- Supervisor: Prof. Claudomiro de Souza de Sales Júnior, Ph.D.
- Co-supervisor: Prof. Kauê Santana da Costa, Ph.D.
- Evaluators:
- Prof. Filipe Saraiva, Ph.D.
- Prof. Anderson Lima, Ph.D.