Fundamentos em processamento de linguagem natural: uma proposta para extração de bigramas

AutorEdson Marchetti da Silva - Renato Rocha Souza
CargoCefet-MG - FGV/RJ
Páginas1-31
1
v. 19, n. 40, 2014.
p. 1-32
ISSN 1518-2924
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, v. 19, n.40, p .
1-32, mai./ago., 2014. ISSN 1518-2924. DOI: 10.5007/1518-2924.2014v19n40p1
Fundamentos em processamento de linguagem natural:
uma proposta para extração de bigramas
Fundamentals in natural language processing: a proposal for
extraction bigrams
Edson Marchetti da SILVA1
Renato Rocha SOUZA2
RESUMO
É senso comum que o texto escrito é uma importante forma de registrar as informações e que
atualmente grande parte desse conteúdo informacional está disponível em meio digital.
Entretanto, de maneira geral, os computadores lidam com o texto como sendo uma cadeia de
caracteres que não têm nenhum significado. A área de Processamento de Linguagem Natural
(PLN) vem se empenhando em extrair significados do texto. Nesse sentido este trabalho
apresenta uma revisão desse tema e propõe um método automatizado que utiliza uma
heurística determinística denominada Heudet que visa extrair bigramas do texto. A meta é
extrair o significado do texto através de um conjunto de expressões multipalavras identificadas.
Os resultados obtidos foram melhores se comparados com aqueles que utilizam-se das técnicas
de medidas de associação estatística obtidas pelo software Ngram Statistics Package (NSP).
PALAVRAS-CHAVE: Extração de expressões multipalavras. Medidas de associação estatísticas.
Heudet.
ABSTRACT
It is common sense that the written text is an important way of to register information and
currently much of this information content is available in digital form. Ho wever, in general, the
computers consider a text is a string that have not significance. The area of Natural Language
Processing (PLN) has been engaged in extracting meaning from text. Accordingly this paper
presents a review of this issue and proposes an a utomated method that uses a deterministic
heuristic called Heudet which aims extract bigram of the text. The goal is to extract the meaning
of the text identifing a set of multiword expressions (MWE). The results were better compared
to those using up the techniques of statistical association measures obtained from the software
ngram Statistics Package (NSP).
KEYWORDS: Multiword expression extraction. Measures of association statistics; Heudet.
Esta obra está licenciada sob uma Licença Creative Commons.
1 Cefet-MG - edson@div.cefetmg.br
2 FGV/RJ - renato.souza@fgv.br
ARTIGO
Recebido em:
05/05/2013
Aceito em:
13/05/2014
2
1 INTRODUÇÃO
Nesse sentido, Sarmento (2006) afirma que o texto não é um simples
amontoado aleatório de palavras. A ordem da colocação das palavras no texto é
que produz o significado. Portanto, o estudo da co-ocorrência das palavras traz
consigo uma informação importante. Isso pode indicar que as palavras estão
relacionadas, diretamente por composicionalidade ou afinidade, ou
indiretamente por semelhança. Portanto, a base da linguística empírica consiste
em encontrar, a partir da frequência de co-ocorrências observadas, as
dependências significativas entre os termos. Esses termos adjacentes são
denominados n-gramas ou Expressões Multipalavras (EM).
Evert (2005, citado por Sarmento) aponta como sendo quatro esses
grupos de medidas utilizadas na identificação dos n-gramas:
testes de significância estatística;
coeficientes de associação;
baseadas em conceitos da teoria da informação;
baseadas em heurísticas diversas.
Zhang et al. (2009) corroboram com Sarmento ao afirmar que a
capacidade de expressar sentido de uma palavra depende das demais palavras
que a acompanham. Quando uma palavra aparece acompanhada por um
conjunto de termos, maiores são as chances desse conjunto possuir um
significado relevante. Isso significa que não apenas a palavra, mas também a
informação contextual é útil para o processamento de informações. Tem
ocorrido um crescente interesse, sobretudo na área de Processamento da
Linguagem Natural (PLN), afinal essas formas fixas são tão numerosas em
qualquer tipo de texto, que não podem ser ignoradas. Portanto, essas
características das EM as tornam relevantes no tratamento dos recursos
lexicais, os quais são importantes insumos informacionais para muitas
aplicações relacionadas ao PLN, tais como: Recuperação da Informação (RI),
tradução automática, sumarização de texto, etc.

Para continuar a ler

PEÇA SUA AVALIAÇÃO

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT