Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: http://tede.bc.uepb.edu.br/jspui/handle/tede/4730
Tipo do documento: Dissertação
Título: Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação
Autor: Oliveira, Giovanna de Fátima Abrantes 
Primeiro orientador: Véras Neto, José Germano
Primeiro coorientador: Fernandes, David Douglas de Sousa
Primeiro membro da banca: Véras Neto, José Germano
Segundo membro da banca: Simões, Simone da Silva
Terceiro membro da banca: Pistonesi, Marcelo Fabián
Resumo: A seleção de variáveis consiste em uma ferramenta potencial que busca filtrar informações relevantes para resolução de problemas envolvendo matrizes complexas. Buscando melhorar a precisão dos modelos quimiométricos e a robustez atendendo ao princípio da parcimônia diferentes algoritmos têm sido desenvolvidos utilizando a seleção de variáveis. Com os avanços da inteligência artificial o uso de algoritmos bioinspirados para a otimização e resolução de problemas complexos tornou-se uma ferramenta interessante para diversas aplicações em classificação multivariada. Nesse contexto, o presente estudo propõe um novo algoritmo bionspirado no comportamento dos vagalumes denominado FA-PLS-DA para seleção de variáveis empregando a Análise Discriminante Linear buscando superar problemas que envolvem elevada multicolinearidade entre as variáveis. Para avaliar o desempenho do algoritmo proposto, foram utilizados três bancos de dados espectrométricos na região NIR de domínio público e dados com informação simulada, sendo os dados brutos e pré-processados. O primeiro banco de dados composto de espectros ATR-FTIR na faixa de 4000 a 650 cm-1 de 104 amostras de saliva para avaliar a presença ou ausência de SARS-CoV-2. O segundo banco de dados utilizados consiste também em espectros NIR de 192 amostras de leite de cabra para avaliar a adulteração pela adição de leite de vaca. O terceiro banco de dados é também composto por espectros NIR de 120 amostras de azeite de oliva extra-virgem provenientes de quatro países diferentes. Para estudo com informação simulada o banco de dados compreendeu as 90 observações com 600 variáveis usando quatro fatores para gerar três classes distintas, as amostras foram divididas em conjuntos de treinamento e teste usando o algoritmo Kennard-Stone. O desempenho do FA-PLS-DA foi comparado com os resultados da Análise Discriminante Linear por Mínimos Quadrados Parciais (PLS-DA) aplicando diferentes pré-processamentos aos dados. O tratamento dos dados foi realizado em ambiente Matlab. Foram selecionados os modelos com os dados pré-processados que apresentaram maior Taxa Correta de Classificação (TCC), o algoritmo FA-PLS-DA selecionou uma quantidade menor variáveis latentes (LVs) para todos os bancos de dados. Ademais, o algoritmo proposto apresentou TCC de 100% para o conjunto de treinamento do banco de dados de COVID, enquanto o PLS-DA apresentou TCC de 98,72% empregando um número maior de variábeis latentes. Para o banco de dados de leite de cabra o algoritmo proposto apresentou TCC de 95,92%, já o PLS-DA mostrou 100% de TCC, apesar de superar o algoritmo proposto em termos de TCC, o PLS-DA empregou um número elevado de LVs para construção dos modelos. O algoritmo proposto superou o PLS-DA na construção dos modelos do banco de dados de azeite de oliva, em que obteve 100% de TCC para os conjuntos de treinamento e teste empregando o menor número de LVs. Para os dados com informação simulada o FA-PLS-DA apresentou 82,22% de TCC para o conjunto de teste, enquanto a TCC do PLS-DA foi de 77,78%. Em todos os bancos de dados o algoritmo FA-PLS-DA mostrou ser mais parcimonioso que o PLS-DA tendo sua performance comparada ao desempenho do PLS-DA, sendo robusto e capaz de classificar as amostras adequadamente a partir das variáveis selecionadas corroborando com sua viabilidade.
Abstract: Variable selection is a potential tool that seeks to filter relevant information to solve problems involving complex matrices. Seeking to improve the accuracy of chemometric models and robustness to the principle of parsimony different algorithms have been developed using variable selection. With the advances in artificial intelligence the use of bio-inspired algorithms for the optimization and resolution of complex problems has become an interesting tool for several applications in the context of multivariate calibration and classification. In this context, the present study proposes a new bio-inspired algorithm in the behavior of fireflies called FA-PLS-DA for variable selection employing Linear Discriminant Analysis seeking to overcome problems involving high multicollinearity among variables. To evaluate the performance of the proposed algorithm, we stipulated population conditions of 50 fireflies in 50 life cycles and used three case studies involving public domain NIR spectrometric databases and a database with simulated information. The first database consists of ATR-FTIR spectra in the 4000 to 650 cm-1 range of 104 saliva samples to assess the presence or absence of SARS-CoV-2. The second database used also consists of NIR spectra of 192 goat milk samples to assess adulteration by the addition of cow's milk. The third database also consists of NIR spectra of 120 samples of extra virgin olive oil from four different countries. For study with simulated information the database comprised 90 observations with 600 variables using four factors to generate three distinct classes, the samples were divided into training and test sets using the Kennard-Stone algorithm. The performance of FA-PLS-DA was compared with the results of Partial Least Squares Linear Discriminant Analysis (PLS-DA) applying different preprocessing to the data, and the data was treated in programs developed in Matlab environment. The preprocessed models that presented the highest TCC were selected, the FA-PLS-DA algorithm selected 3, 7, 9 and 7 latent variables (LVs) for the COVID, goat milk, extra-virgin olive oil and simulated databases respectively, while the PLS-DA selected 4, 16, 16 and 4 LVs. Furthermore, the proposed algorithm showed a correct classification rate (CCR) of 100% for the COVID database training set, while PLS-DA showed a rate of 98.72% by employing a larger number of latent variables. For the goat milk database, the proposed algorithm showed a CCR of 95.92%, while PLS-DA showed 100% CCR. Despite outperforming the proposed algorithm in terms of CCR, PLS-DA employed a high number of LVs for model building. The proposed algorithm outperformed PLS-DA in building the models for the olive oil database, where it obtained 100% CCR for the training and test sets by employing the smallest number of LVs. For the data with simulated information FA-PLS-DA showed 82, 22% CCR for the test set, while PLS-DA showed 77.78%. For all the databases, the FA-PLS-DA algorithm proved to be more parsimonious than PLS-DA, and its performance compared to PLS-DA was robust and able to classify the samples properly from the selected variables, corroborating its viability.
Palavras-chave: Seleção de variáveis
Inteligência artificial
Algoritmos bioinspirados
Área(s) do CNPq: QUIMICA::QUIMICA ANALITICA
Idioma: por
País: Brasil
Instituição: Universidade Estadual da Paraíba
Sigla da instituição: UEPB
Departamento: Pró-Reitoria de Pós-Graduação e Pesquisa - PRPGP
Programa: Programa de Pós-Graduação em Química - PPGQ
Citação: OLIVEIRA, Giovanna de Fátima Abrantes. Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação. 2023. 61 f. Dissertação (Programa de Pós-Graduação em Química - PPGQ) - Universidade Estadual da Paraíba, Campina Grande, 2023.
Tipo de acesso: Acesso Embargado
URI: http://tede.bc.uepb.edu.br/jspui/handle/tede/4730
Data de defesa: 31-Jul-2023
Aparece nas coleções:PPGQ - Dissertações

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DS - Giovanna de Fátima Abrantes Oliveira.pdfDS - Giovanna de Fátima Abrantes Oliveira4.05 MBAdobe PDFBaixar/Abrir Pré-Visualizar
Termo de Depósito BDTD.pdfTermo de Depósito BDTD794.47 kBAdobe PDFBaixar/Abrir Pré-Visualizar    Solictar uma cópia


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.