DUBI : um framework para avaliação automática de chatbots

Souza Filho, José Ronaldo Agra de Souza

Please use this identifier to cite or link to this item: http://repositorio.unb.br/handle/10482/50958

Files in This Item:

File	Size	Format
JoseRonaldoAgraDeSouzaFilho_DISSERT.pdf	1,28 MB	Adobe PDF	View/Open

Title:	DUBI : um framework para avaliação automática de chatbots
Authors:	Souza Filho, José Ronaldo Agra de Souza
Orientador(es)::	Bordim, Jacir Luiz
Assunto::	Chatbot Chatbot - avaliação Inteligência artificial Testes automatizados Framework
Issue Date:	18-Nov-2024
Data de defesa::	6-Aug-2024
Citation:	SOUZA FILHO, José Ronaldo Agra de. DUBI: um framework para avaliação automática de chatbots. 2024. 138 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2024.
Abstract:	A proliferação da inteligência artificial impulsiona a adoção de chatbots, sistemas conversacionais projetados para automatizar interações com usuários. No entanto, avaliá-los representa um desafio complexo e que frequentemente depende da intervenção humana, tornando-se impraticável em larga escala. Uma revisão do estado da arte indicou que duas abordagens de avaliação são utilizadas: estática e interativa. A primeira examina a modelagem do assistente virtual, enquanto a última interage com o sistema para avaliar seu desempenho. No entanto, foi observado que falta um método que combine ambas as avaliações, algo crucial para o diagnóstico completo do sistema. Nesse contexto, este estudo apresenta o framework DUBI, acrônimo para Design Understanding (DU) e chatBot Intelligence (BI), como um meio de avaliar automaticamente chatbots, cobrindo seus componentes estáticos e interativos. O DUBI é um avanço em comparação aos métodos existentes, pois permite a avaliação contínua do desempenho dos assistentes virtuais e fornece recomendações objetivas para aprimorar sua estrutura, que podem ser usadas como base para intervenções. O módulo de avaliação estática mede uma série de métricas e indica quais áreas exigem melhorias na modelagem do chatbot. A avaliação interativa utiliza grandes modelos de linguagem para criar casos de teste a partir do conteúdo de treinamento do chatbot e analisa seu desempenho após a execução desses testes. O procedimento automatizado é o diferencial do DUBI, pois reduz a variabilidade e o viés da avaliação humana, ao mesmo tempo em que economiza tempo e recursos. Um experimento com assistentes virtuais reais foi realizado para validar o DUBI. As descobertas evidenciaram que os aprimoramentos sugeridos pelo DUBI levou a avanços substanciais nas medidas de desempenho. Especificamente, um dos chatbots avaliados teve um aumento notável de 55% na acurácia e uma redução impressionante de 89% na taxa de fallback. Os resultados comprovam a eficácia do DUBI em identificar deficiências na modelagem e propor aprimoramentos tangíveis. Este trabalho contribui para a literatura ao integrar avaliações estáticas e interativas, fornecendo uma ferramenta para melhorar a qualidade de chatbots, o que possibilita reduzir riscos financeiros ou de reputação.
Abstract:	The proliferation of artificial intelligence is driving the adoption of chatbots, which are conversational systems designed to automate user interactions. Nevertheless, evaluating chatbots poses an intricate difficulty that frequently depends on human intervention, rendering it impractical on a large scale. A review of the state of the art indicated that two evaluation approaches have been utilized: static and interactive. The former examines the structure and training content of the virtual assistant, while the latter engages with the system to assess its performance. However, it has been noted that there is a lack of a method that combines both evaluations, which are crucial for a thorough system diagnosis. Within this perspective, this study introduces the DUBI framework, an acronym for Design Understanding (DU) and chatBot Intelligence (BI), as a means to automatically assess chatbots, covering both their static and interactive components. DUBI offers a notable improvement compared to existing methods, since it enables ongoing assessment of virtual assistants’ performance and provides objective recommendations for enhancing their structure, which can be used as a basis for interventions. The static assessment measures a range of metrics and provides feedback on areas that require improvement in the chatbot’s modeling. The interactive assessment utilizes large language models to create test cases from the chatbot’s training material and analyzes its performance after the execution of these tests. The automated procedure is a key feature of DUBI, since it reduces the variability and bias from human evaluation while saving time and resources. An experiment was done to authenticate DUBI by employing actual virtual assistants. Our findings demonstrated that implementing the enhancements suggested by DUBI led to substantial advancements in performance measures. Specifically, one of the assessed chatbots had a remarkable 55% increase in accuracy and an impressive 89% decrease in the fallback rate. The results clearly showcase the efficacy of DUBI in pinpointing shortcomings in modeling and proposing tangible enhancements. This work contributes to the literature by integrating static and interactive evaluations, providing a tool to improve chatbot quality and reduce financial or reputational risks.
metadata.dc.description.unidade:	Instituto de Ciências Exatas (IE) Departamento de Ciência da Computação (IE CIC)
Description:	Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2024.
metadata.dc.description.ppg:	Programa de Pós-Graduação em Computação Aplicada, Mestrado Profissional
Licença::	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Appears in Collections:	Teses, dissertações e produtos pós-doutorado

Show full item record " class="statisticsLink btn btn-primary" href="/jspui/handle/10482/50958/statistics">