Detecção de patologias laríngeas por meio da análise de sinais de voz utilizando Deep Neural Networks
Dias, Lucas
Resumo
A fala é o principal mecanismo natural de comunicação entre seres humanos.O sistema de formação e transmissão natural da voz, principal elemento da fala, é comprometido pelo surgimento de patologias laríngeas. Esta pesquisa trata da aplicação de classificadores baseados em redes neurais profundas (Deep Neural Networks - DNNs) na discriminação entre sinais de vozes saudáveis e de vozes afetadas pelas patologias laríngeas organofuncionais edema de Reinke, carcinoma, leocoplasia, pólipos e a paralisia das pregas vocais, de origem neurológica. A metodologia proposta é baseada na análise do comportamento dinâmico do sinal de voz avaliado, dispensando medidas ou aplicações de técnicas comumente usadas na extração de características. Foi investigado o uso de DNNs com 04,05 e 06 camadas com 200 neurônios ocultos ativados pela função unidade linear retificada (Rectified LinearUnit - ReLU),um neurônio na camada de saída,ativado pela função sigmoide e uma camada de entrada que recebe os 400 dados que compõe cada segmento extraído do sinal de voz avaliado. No total, 07 algoritmos de aprendizagem, utilizando como função custo a entropia cruzada binária (Binary Cross-entropy), foram avaliados individualmente para o treinamento de cada DNN. Os sinais de voz utilizados nesta pesquisa foram extraídos da base de dados Saarbruecken Voice Database (SVD), desenvolvida na Alemanha. Da base, foram selecionados 640 sinais de voz da vogal sustentada /a/, sendo 320 sinais de vozes saudáveis e 320 afetados por patologias laríngeas. A discriminação foi realizada por classes,sendo: a classe saudável; a classe patologias, composta por todos os sinais patológicos selecionados da base SVD; a classe das vozes afetadas apenas por patologias laríngeas organofuncionais; e, por fim,a classe de sinais de voz afetados apenas por paralisia das pregas vocais, compondo a categoria de patologia laríngea de origem neurológica. Foram considerados 04 casos de classificação entre os sinais de voz selecionados, sendo eles: saudável x patologias, saudável x patologias organofuncionais, saudável x paralisia das pregas vocais e patologias organofuncionais x paralisia das pregas vocais. Para cada caso discriminativo, 28 classificadores foram implementados e avaliados por meio do F1 score e pelo coeficiente de correlação de Mathews (CCM) (aplicado apenas na discriminação entre as classes patológicas), e pelas métricas acurácia, sensibilidade e especificidade. Além disso, foram investigados os efeitos da inclusão de taxas de sobreposição (0%,25%,50% e 75%) aplicadas durante a extração dos segmentos. A técnica de validação cruzada k- fold, com k = 10, foi implementada nesta pesquisa para seleção dos conjuntos de dados de treino e teste. Os resultados indicam que o método proposto possui o seu melhor desempenho na discriminação entre vozes saudáveis e afetadas por paralisia das pregas vocais, com base na detecção de segmentos do sinal de voz sem taxa de sobreposição,utilizando o classificador com 4 camadas ocultas,treinado pelo algoritmo de aprendizagem Adadelta,no qual foram obtidos após a validação cruzada 88,68 ±3,04% para acurácia, 92,04 ± 5,82% para sensibilidade, 85,33 ± 6,53% para especificidade e F1 score igual 0,89. Conclui-se que é possível discriminar vozes saudáveis e afetadas por patologias laríngeas, com base na análise do comportamento dinâmico de segmentos do sinal de voz utilizando DNNs.
Citação
Artigo Completo
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.