Campo DC | Valor | Idioma |
dc.contributor.advisor | Sousa Júnior, Rafael Timóteo de | - |
dc.contributor.author | Gualberto, Éder Souza | - |
dc.date.accessioned | 2021-03-31T20:52:30Z | - |
dc.date.available | 2021-03-31T20:52:30Z | - |
dc.date.issued | 2021-03-31 | - |
dc.date.submitted | 2020-12-15 | - |
dc.identifier.citation | GUALBERTO, Éder Souza. Detecção de phishing: métodos baseados em processamento de linguagem natural. 2020. xxiv, 130 f., il. Tese (Doutorado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2020. | pt_BR |
dc.identifier.uri | https://repositorio.unb.br/handle/10482/40415 | - |
dc.description | Tese (doutorado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2020. | pt_BR |
dc.description.abstract | Nas tentativas de phishing, o criminoso finge ser uma pessoa ou entidade confiável e, por meio dessa falsa representação, tenta obter informações confidenciais de um alvo. Um exemplo típico é aquele em que golpistas tentam passar por uma instituição conhecida, alegando a necessidade de atualização de um cadastro ou de uma ação imediata do lado do cliente e, para isso, são solicitados dados pessoais e financeiros. Uma variedade de recursos, como páginas da web falsas, instalação de código malicioso ou preenchimento de formulários, são empregados junto com o próprio e-mail para executar esse tipo de ação. Geralmente uma campanha de phishing começa com um e-mail. Portanto, a detecção desse tipo de e-mail é crítica. Uma vez que o phishing pretende parecer uma mensagem legítima, as técnicas de detecção baseadas apenas em regras de filtragem, como regras de listas e heurística, têm eficácia limitada, além de potencialmente poderem ser forjadas. Desta forma, através de processamento de texto, atributos podem ser extraídos do corpo e do cabeçalho de e-mails, por meio de técnicas que expliquem as relações de semelhança e significância entre as palavras presentes em um determinado e-mail, bem como em todo o conjunto de amostras de mensagens. A abordagem mais comum para este tipo de engenharia de recursos é baseada em Modelos de Espaço Vetorial (VSM), mas como o VSM derivada da Matriz de Documentos por Termos (DTM) tem tantas dimensões quanto o número de termos utilizado em um corpus, e dado o fato de que nem todos os termos estão presentes em cada um dos emails, a etapa de engenharia de recursos do processo de detecção de e-mails de phishing tem que lidar e resolver questões relacionadas à "Maldição da Dimensionalidade", à esparsidade e às informações que podem ser obtidas do contexto textual. Esta tese propõe uma abordagem que consiste em quatro métodos para detectar phishing. Eles usam técnicas combinadas para obter recursos mais representativos dos textos de e-mails que são utilizados como atributos de entrada para os algoritmos de classificação para detectar e-mails de phishing corretamente. Eles são baseadas em processamento de linguagem natural (NLP) e aprendizado de máquina (ML), com estratégias de engenharia de features que aumentam a precisão, recall e acurácia das previsões dos algoritmos adotados, e abordam os problemas relacionados à representação VSM/DTM. O método 1 usa todos os recursos obtidos da DTM nos algoritmos de classificação, enquanto os outros métodos usam diferentes estratégias de redução de dimensionalidade para lidar com as questões apontadas. O método 2 usa a seleção de recursos por meio das vii medidas de qui-quadrado e informação mútua para tratar esses problemas. O Método 3 implementa a extração de recursos por meio das técnicas de Análise de Componentes Prin- cipais (PCA), Análise Semântica Latente (LSA) e Alocação Latente de Dirichlet (LDA). Enquanto o Método 4 é baseado na incorporação de palavras, e suas representações são obtidas a partir das técnicas Word2Vec, Fasttext e Doc2Vec. Foram empregados três conjuntos de dados (Dataset 1 - o conjunto de dados principal, Dataset 2 e Dataset 3). Usando o Dataset 1, em seus respectivos melhores resultados, uma pontuação F1 de 99,74% foi alcançada pelo Método 1, enquanto os outros três métodos alcançaram uma medida notável de 100% em todas as medidas de utilidade utilizadas, ou seja até onde sabemos, o mais alto resultado em pesquisas de detecção de phishing para um conjunto de dados credenciado com base apenas no corpo dos e-mails. Os métodos/perspectivas que obtiveram 100% no Dataset 1 (perspectiva Qui-quadrado do Método 2 - usando cem features, perspectiva LSA do Método 3 - usando vinte e cinco features, perspectiva Word2Vec e perspectiva FastText do Método 4) foram avaliados em dois contextos diferentes. Considerando tanto o corpo do e-mail quanto o cabeçalho, utilizando o primeiro dataset adicional proposto (Dataset 2), onde, em sua melhor nota, foi obtido 99,854% F1 Score na perspectiva Word2Vec, superando o melhor resultado atual para este dataset. Utilizando apenas os corpos de e-mail, como feito para o Dataset 1, a avaliação com o Dataset 3 também se mostrou com os melhores resultados para este dataset. Todas as quatro perspectivas superam os resultados do estado da arte, com uma pontuação F1 de 98,43%, através da perspectiva FastText, sendo sua melhor nota. Portanto, para os dois conjuntos de dados adicionais, esses resultados são os mais elevados na pesquisa de detecção de phishing para esses datasets. Os resultados demonstrados não são apenas devido ao excelente desempenho dos algoritmos de classificação, mas também devido à combinação de técnicas proposta, composta de processos de engenharia de features, de técnicas de aprendizagem apri- moradas para reamostragem e validação cruzada, e da estimativa de configuração de hiperparâmetros. Assim, os métodos propostos, suas perspectivas e toda a sua estraté- gia demonstraram um desempenho relevante na detecção de phishing. Eles também se mostraram uma contribuição substancial para outras pesquisas de NLP que precisam lidar com os problemas da representação VSM/DTM, pois geram uma representação densa e de baixa dimensão para os textos avaliados. | pt_BR |
dc.language.iso | Inglês | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.title | Detecção de phishing : métodos baseados em processamento de linguagem natural | pt_BR |
dc.title.alternative | Phishing detection : methods based on natural language processing | pt_BR |
dc.type | Tese | pt_BR |
dc.subject.keyword | Phishing - detecção | pt_BR |
dc.subject.keyword | Linguagem natural - processamento | pt_BR |
dc.subject.keyword | Golpes virtuais - prevenção | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
dc.description.abstract1 | In phishing attempts, the attacker pretends to be a trusted person or entity and, through
this false impersonation, tries to obtain sensitive information from a target. A typical
example is one in which a scammer tries to pass off as a known institution, claiming
the need to update a register or take immediate action from the client-side, and for this,
personal and financial data are requested. A variety of features, such as fake web pages,
the installation of malicious code, or form filling are employed along with the e-mail
itself to perform this type of action. A phishing campaign usually starts with an e-mail.
Therefore, the detection of this type of e-mail is critical. Since phishing aims to appear
being a legitimate message, detection techniques based only on filtering rules, such as
blacklisting and heuristics, have limited effectiveness, in addition to being potentially
forged.
Therefore, with the use of data-driven techniques, mainly those focused on text
processing, features can be extracted from the e-mail body and header that explain the
similarity and significance of the words in a specific e-mail, as well as for the entire set
of message samples. The most common approach for this type of feature engineering is
based on Vector Space Models (VSM). However, since VSMs derived from the Document-
Term Matrix (DTM) have as many dimensions as the number of terms in used in a corpus,
in addition to the fact that not all terms are present in each of the e-mails, the feature
engineering step of the phishing e-mail detection process has to deal with and address
issues related to the "Curse of Dimensionality"; the sparsity and the information that can
be obtained from the context (how to improve it, and reveal its latent features).
This thesis proposes an approach to detect phishing that consists of four methods.
They use combined techniques to obtain more representative features from the e-mail
texts that feed ML classification algorithms to correctly detect phishing e-mails. They are
based on natural language processing (NLP) and machine learning (ML), with feature
engineering strategies that increase the precision, recall, and accuracy of the predictions
of the adopted algorithms and that address the VSM/DTM problems.
Method 1 uses all the features obtained from the DTM in the classification algorithms,
while the other methods use different dimensionality reduction strategies to deal with
the posed issues. Method 2 uses feature selection through the Chi-Square and Mutual
Information measures to address these problems. Method 3 implements feature extraction
through the Principal Components Analysis (PCA), Latent Semantic Analysis (LSA), and
Latent Dirichlet Allocation (LDA) techniques. Method 4 is based on word embedding,
and its representations are obtained from the Word2Vec, Fasttext, and Doc2Vec techniques.
ix
Our approach was employed on three datasets (Dataset 1 - the main dataset, Dataset 2,
and Dataset 3).
All four proposed methods had excellent marks. Using the main proposed dataset
(Dataset 1), on the respective best results of the four methods, a F1 Score of 99.74% was
achieved by Method 1, whereas the other three methods attained a remarkable measure
of 100% in all main utility measures which is, to the best of our knowledge, the highest
result obtained in phishing detection research for an accredited dataset based only on the
body of the e-mails.
The methods/perspectives that obtained 100% in Dataset 1 (perspective Chi-Square of
Method 2 - using one-hundred features, perspective LSA of Method 3 - using twenty-five
features, perspectiveWord2Vec and perspective FastText of Method 4) were evaluated
in two different contexts. Considering both the e-mail bodies and headers, using the
first additional proposed dataset (Dataset 2), a 99.854% F1 Score was obtained using the
perspective Word2Vec, which was its best mark, surpassing the current best result. Using
just the e-mail bodies, as done for Dataset 1, the evaluation employing Dataset 3 also
proved to reach the best marks for this data collection. All four perspectives outperformed
the state-of-the-art results, with an F1 Score of 98.43%, through the FastText perspective,
being its best mark. Therefore, for both additional datasets, these results, to the best
of our knowledge, are the highest in phishing detection research for these accredited
datasets.
The results obtained by these measurements are not only due to the excellent perfor-
mance of the classification algorithms, but also to the combined techniques of feature
engineering proposed process such as text processing procedures (for instance, the lemma-
tization step), improved learning techniques for re-sampling and cross-validation, and
hyper-parameter configuration estimation. Thus, the proposed methods, their perspectives,
and the complete plan of action demonstrated relevant performance when distinguishing
between ham and phishing e-mails. The methods also proved to substantially contribute
to this area of research and other natural language processing research that need to address
or avoid problems related to VSM/DTM representation, since the methods generate a
dense and low-dimension representation of the evaluated texts. | pt_BR |
dc.contributor.email | edergual@gmail.com | pt_BR |
Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|