Relatórios Técnicos 2018

ID
PPgSI-001/2018
TitleUma análise comparativa das ferramentas de pré-processamento de dados textuais: NLTK, PreTexT e R
Author(s)Alexandra Katiuska Ramos Diaz, André Paulino de Lima, Andrei Martins Silva, Fernando Henrique da Silva Costa, José Luiz Maturana Pagnossim and Sarajane Marques Peres
Abstract

O pré-processamento de textos é uma atividade fundamental para representação computacional de dados textuais, permitindo que modelos computacionais possam ser aplicados para aquisição de conhecimento. Neste relatório, as principais operações necessárias para obtenção da representação, segundo o paradigma de modelo do espaço vetorial, são descritas e três ferramentas - PreText, NLTK e R - para implementação dessas operações são apresentadas. Resultados de testes conduzidos sobre o corpus 20 Newsgroups sugerem que as representações de textos geradas nas três ferramentas são equivalentes. O relatório é encerrado com uma análise comparativa das vantagens e desvantagens de cada implementação de forma a prover uma orientação sobre o uso dessas ferramentas para iniciantes. (in Portuguese)

Number of Pages32 pages
Publication DateJannuary, 2018
File