Resumo | O pré-processamento de textos é uma atividade fundamental para representação computacional de dados textuais, permitindo que modelos computacionais possam ser aplicados para aquisição de conhecimento. Neste relatório, as principais operações necessárias para obtenção da representação, segundo o paradigma de modelo do espaço vetorial, são descritas e três ferramentas - PreText, NLTK e R - para implementação dessas operações são apresentadas. Resultados de testes conduzidos sobre o corpus 20 Newsgroups sugerem que as representações de textos geradas nas três ferramentas são equivalentes. O relatório é encerrado com uma análise comparativa das vantagens e desvantagens de cada implementação de forma a prover uma orientação sobre o uso dessas ferramentas para iniciantes.
|