Use este identificador para citar ou linkar para este item: http://hdl.handle.net/123456789/3622
Título: Uma discussão entre as técnicas de classificação: Naive bayes e árvore de decisão
Título(s) alternativo(s): A discussion among classification techniques: Naive Bayes and Decision Tree
Autor(es): SILVA, Alessandro Jorge Rodrigues da
Palavras-chave: Mineração de dados
Naive bayes
Árvore de decisão
Data mining
Naive bayes
Decision tree
Data do documento: 14-Set-2016
Editor: Universidade Federal do Maranhão
Resumo: Com o avanço da tecnologia da informação tornou-se possível armazenar grandes volumes de dados. A KDD (Knowledge Discovery in Databases) surgiu nesse cenário como uma alternativa para extrair informações úteis dessas bases de dados. A mineração de dados é uma das etapas da KDD na qual ocorre a busca efetiva por conhecimentos novos e úteis a partir dos dados. Dentre as tarefas da área de mineração de dados, a classificação é uma das tarefas mais importantes. Este trabalho analisa duas das mais importantes técnicas de classificação que são a Árvore de Decisão e Naive Bayes. Uma discussão foi realizada levando em consideração a forma como cada classificador trata os atributos no momento da construção do modelo de classificação. Nessa fase a entropia e o ganho de informação foram utilizados para auxiliar na escolha dos atributos considerados mais importantes. Os atributos redundantes, que repetem informações de outros atributos, e os atributos irrelevantes, que agregam pouca ou quase nenhuma informação para a tarefa de classificação, também fazem parte da discussão. A pesquisa foi baseada em literaturas renomadas na área da mineração de dados das quais podemos citar: Goldschmidt e Passos (2005), Russel e Norvig (2004), Tan, Steinbach e Kumar (2009), Carvalho (2002), Ham e Kamber (2006), Garcia (2000) e Gama (2000). A pesquisa permitiu observar que cada técnica apresenta vantagens e limitações, considerando o tipo de dados em que são aplicadas. A Árvore de Decisão tende a obter melhores resultados quando na base de dados não estão presentes os atributos irrelevantes. Já o Naive Bayes obtém resultados mais desejáveis na ausência de atributos redundantes.
Descrição: ABSTRACT With the advancement of information technology has made it possible to store large volumes of data. The KDD (Knowledge Discovery in Databases) emerged in this scenario as an alternative to extract useful information from these databases. Data mining is one of the stages of KDD in which there is an effective search for new and useful knowledge from the data. Among the tasks of data mining area, the classification is one of the most important tasks. This paper examines two of the most important classification techniques that are Decision Tree and Naive Bayes. A discussion was conducted taking into account how each classifier is the attributes at the time of construction of the classification model. In this phase the entropy and information gain were used to assist in choosing the attributes considered most important. The redundant attributes, which repeat information from other attributes, and irrelevant attributes that add little or no information for the classification task, are also part of the discussion. The research was based on literature renowned in the field of data mining which include: Goldschmidt and Passos (2005), Russell and Norvig (2004), Tan, Steinbach and Kumar (2009), Carvalho (2002), Ham and Kamber (2006), Garcia (2000) and Gama (2000). The research allowed to observe that each technique has advantages and limitations, considering the type of data they are applied. Decision tree tends to get better results when the database are not present irrelevant attributes. But the Naive Bayes get more desirable results in the absence of redundant attributes.
URI: http://hdl.handle.net/123456789/3622
Aparece nas coleções:TCCs de Graduação em Ciência da Computação do Campus do Bacanga

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
ALESSANDRO-SILVA.pdf1,16 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.