@MASTERSTHESIS{ 2023:1235720225, title = {Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação}, year = {2023}, url = "http://tede.bc.uepb.edu.br/jspui/handle/tede/4730", abstract = "A seleção de variáveis consiste em uma ferramenta potencial que busca filtrar informações relevantes para resolução de problemas envolvendo matrizes complexas. Buscando melhorar a precisão dos modelos quimiométricos e a robustez atendendo ao princípio da parcimônia diferentes algoritmos têm sido desenvolvidos utilizando a seleção de variáveis. Com os avanços da inteligência artificial o uso de algoritmos bioinspirados para a otimização e resolução de problemas complexos tornou-se uma ferramenta interessante para diversas aplicações em classificação multivariada. Nesse contexto, o presente estudo propõe um novo algoritmo bionspirado no comportamento dos vagalumes denominado FA-PLS-DA para seleção de variáveis empregando a Análise Discriminante Linear buscando superar problemas que envolvem elevada multicolinearidade entre as variáveis. Para avaliar o desempenho do algoritmo proposto, foram utilizados três bancos de dados espectrométricos na região NIR de domínio público e dados com informação simulada, sendo os dados brutos e pré-processados. O primeiro banco de dados composto de espectros ATR-FTIR na faixa de 4000 a 650 cm-1 de 104 amostras de saliva para avaliar a presença ou ausência de SARS-CoV-2. O segundo banco de dados utilizados consiste também em espectros NIR de 192 amostras de leite de cabra para avaliar a adulteração pela adição de leite de vaca. O terceiro banco de dados é também composto por espectros NIR de 120 amostras de azeite de oliva extra-virgem provenientes de quatro países diferentes. Para estudo com informação simulada o banco de dados compreendeu as 90 observações com 600 variáveis usando quatro fatores para gerar três classes distintas, as amostras foram divididas em conjuntos de treinamento e teste usando o algoritmo Kennard-Stone. O desempenho do FA-PLS-DA foi comparado com os resultados da Análise Discriminante Linear por Mínimos Quadrados Parciais (PLS-DA) aplicando diferentes pré-processamentos aos dados. O tratamento dos dados foi realizado em ambiente Matlab. Foram selecionados os modelos com os dados pré-processados que apresentaram maior Taxa Correta de Classificação (TCC), o algoritmo FA-PLS-DA selecionou uma quantidade menor variáveis latentes (LVs) para todos os bancos de dados. Ademais, o algoritmo proposto apresentou TCC de 100% para o conjunto de treinamento do banco de dados de COVID, enquanto o PLS-DA apresentou TCC de 98,72% empregando um número maior de variábeis latentes. Para o banco de dados de leite de cabra o algoritmo proposto apresentou TCC de 95,92%, já o PLS-DA mostrou 100% de TCC, apesar de superar o algoritmo proposto em termos de TCC, o PLS-DA empregou um número elevado de LVs para construção dos modelos. O algoritmo proposto superou o PLS-DA na construção dos modelos do banco de dados de azeite de oliva, em que obteve 100% de TCC para os conjuntos de treinamento e teste empregando o menor número de LVs. Para os dados com informação simulada o FA-PLS-DA apresentou 82,22% de TCC para o conjunto de teste, enquanto a TCC do PLS-DA foi de 77,78%. Em todos os bancos de dados o algoritmo FA-PLS-DA mostrou ser mais parcimonioso que o PLS-DA tendo sua performance comparada ao desempenho do PLS-DA, sendo robusto e capaz de classificar as amostras adequadamente a partir das variáveis selecionadas corroborando com sua viabilidade.", publisher = {Universidade Estadual da Paraíba}, scholl = {Programa de Pós-Graduação em Química - PPGQ}, note = {Pró-Reitoria de Pós-Graduação e Pesquisa - PRPGP} }