header

ir para o conteúdo
Notas | 20 DEZ 2021

Conjunto de dados de emoções refinadas em português fracamente supervisionados


Foi criado e disponibilizado um conjunto de dados com mais de 40 mil sentenças em português. Trata-se de um dos primeiros conjuntos de dados que busca representar emoções granulares. No total, os dados compreendem 28 categorias de emoções em português que foram anotadas e estão disponíveis abertamente. Outra contribuição do artigo foi demonstrar a viabilidade da abordagem de Anotação Fraca (Weak Supervision) por meio de Itens Lexicais como regras, especialmente em ambientes com recursos escassos (uma das grandes dificuldades em NLP).
Confirma mais informações sobre o artigo!

Título do artigo: Conjunto de dados de emoções refinadas em português fracamente supervisionados
Resumo:
A Computação Afetiva é o estudo de como os computadores podem reconhecer, interpretar e simular os afetos humanos. A Análise de Sentimento é uma tarefa comum em PLN, mas se concentra apenas na valência da emoção (positiva, negativa, neutra). Uma abordagem emergente é o Reconhecimento de Emoção, que depende de uma classificação refinada. Nesta pesquisa, descrevemos uma abordagem de supervisão fraca baseada em Itens Lexicais para criar um corpus de emoções refinadas em português. Avaliamos nosso corpus fazendo o ajuste fino de um modelo de linguagem baseado em Transformer (BERT) e avaliando-o em um conjunto de validação anotado. Nossos resultados (F1-score= .64) sugerem que a supervisão fraca baseada em Itens Lexicais pode ser uma estratégia apropriada para o trabalho inicial em ambiente de poucos recursos.
 
 Autores:
  • Diogo Cortiz - NIC.br / PUC-SP
  • Jefferson O. Silva - PUC-SP 
  • Newton Calegari - PUC-SP
  • Ana Luísa Freitas - UPM
  • Ana Angélica Soares - UPM
  • Carolina Botelho - UPM
  • Gabriel Gaudencio Rêgo - UPM
  • Waldir Sampaio - UPM
  • Paulo Sergio Boggio - UPM
Data da publicação: 29 de novembro de 2021.

Acesse o artigo completo em: https://doi.org/10.5753/stil.2021.17786

Confira também o conjunto de dados disponibilizado no GitHub do Ceweb.br:
https://github.com/cewebbr/PortugueseEmotionRecognitionWeakSupervision