Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/49799
Arquivos associados a este item:
Arquivo TamanhoFormato 
DiegoSantosDaSilva_DISSERT.pdf1,25 MBAdobe PDFVisualizar/Abrir
Título: SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing
Autor(es): Silva, Diego Santos da
Orientador(es): Weigang, Li
Assunto: Aprendizado profundo
Redes neurais convolucionais
Classificação de texto
Nota Fiscal Eletrônica (NF-e)
Data de publicação: 13-Ago-2024
Referência: SILVA, Diego Santos da. SCAN-NF: a machine learning system for invoice product trasaction classification through short-text processing. 2022. 87 f., il. Dissertação (Mestrado em Informática) — Universidade de Brasília, Brasília, 2022.
Resumo: Nota Fiscal Eletrônica (NF-e) é um documento que reporta as transações de bens e serviços de forma eletrônica, tanto na transferência quanto no armazenamento. A utilização de notas fiscais eletrônicas é uma tendencia emergente e apresenta uma valiosa fonte de informação para diversas áreas. No entanto, o processamento dessas notas é uma tarefa desafiadora. A informação reportada está geralmente incompleta ou apresenta erros. Antes que qualquer processamento significativo possa ser feito, é necessária identificar o produto representado em cada documento. A literatura disponível indica que são necessárias arquiteturas especializadas para lidar com este tipo de informação. Este trabalho propõe SCAN-NF, uma arquitetura para a classificação das transações de produtos contidas em notas fiscais eletronicas. A arquitetura modela o problema de processamento de notas ficais como um problema de processamento de textos curtos com o objetivo de identificar o produto de cada transação. A solução tem o intuito de auxiliar as tarefas de auditoria manual feita por auditores fiscais sobre grandes massas de dados não rotulados ou mal rotulados presente no contexto de notas fiscais. Para validar a arquitetura proposta, este trabalho apresenta tanto um framework contextual para o processamento de notas fiscais quanto um caso de estudo utilizando dados reais de notas fiscais. Modelos tradicionais baseados em frequência de termos foram comparados a modelos de classificação de sentenças baseado em redes convulsionais artificiais. Experimentos demonstram que embora o texto presente em notas fiscais seja breve e apresente erros e falhas de escrita, modelos simples baseados em frequência de termos apresentam bons resultados para a etiquetagem de código de produtos, atingindo acurácia de até 98% entre as classes de produtos estudadas. Mostramos ainda, que é possível a utilização de transferencia de conhecimento entre os dados de notas fiscais destinadas ao consumidor e notas fiscais de transações entre empresas.
Abstract: An electronic invoice (E-invoice) is a document that records the transactions of goods and services electronically, both in storage and exchanges. E-invoice is an emerging practice and presents a valuable source of information for many areas. Processing these invoices is often a challenging task. Information reported is often incomplete or presents mistakes. Before any meaningful processing of these invoices, it is necessary to identify the product represented in each document. The available literature indicates that specialized architectures are necessary to deal with this type of information. This work proposes SCAN-NF, an architecture for invoice product transaction classification. The architecture models the invoice classification problem as a short-text classification problem, in which the goal is to identify the type of product in each transaction based on its short-text description. This solution is intended to aid tax auditors in the analysis of large unlabeled or poorly labeled invoice data. To validate the proposed architecture, this work provides both a contextual framework for invoice processing and a study case utilizing real-world invoice data. We compare traditional term frequency models to sentence classification models based on convolutional neural networks. Experiments demonstrate that even though invoice text descriptions are brief and present many mistakes and typos, simple term frequency models can achieve high baseline results on product code assignment, reaching accuracy scores up to 98% in studied product classes. We have also shown that it is possible to utilize transfer learning between retail invoice data and business to business invoice data.
Unidade Acadêmica: Instituto de Ciências Exatas (IE)
Departamento de Ciência da Computação (IE CIC)
Informações adicionais: Dissertação (Mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.
Programa de pós-graduação: Programa de Pós-Graduação em Informática
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.