Mineração de dados: Análise de uma base a partir da utilização dos algorítmos C4.5 e Adaboostm1

janeiro 9, 2011
Rhaoni Picoli; Vanessa Viol Moretti.
Projeto apresentado à disciplina de Mineração de Dados.

A mineração de dados está relacionada com a identificação de padrões e busca de conhecimentos a partir de um grande conjunto de dados. Tida como uma das etapas do KDD (Knowledge Discovery in Databases) essa metodologia tem sido utilizada por organizações na tentativa de classificar e prever o comportamento de seus clientes e assim direcionar adequadamente os objetivos a fim de obter maiores índices de lucratividade.

As técnicas de mineração relacionam-se com algum software ou ferramenta capaz de pesquisar em grandes quantidades de dados e reproduzir automaticamente os padrões encontrados, realizar pesquisa e análise estatística. A interpretação, no entanto, fica a cargo da cognição humana, que deve decidir como as informações obtidas podem ser eficazmente aplicadas.

A partir desse contexto, realizou-se estudos em uma base de dados cujo objetivo era definir quais e-mails poderiam ser considerados SPAM ou não. Isso foi realizado através dos algoritmos C4.5 e AdaBoostM1 a partir do software WeKa.

Interface do software WEKA