De un reconocedor y generador morfológico del español en Internet
Autores: Santana, O.; Pérez,
J.; Carreras, F.; Hernández, Z.; Rodríguez, G.; Duque, J.D.
Universidad de las Palmas
de Gran Canaria
Del procesador morfológico
El interés que despierta
un procesador morfológico radica en que el tratamiento automatizado
de la morfología del
español constituye
la primera piedra sobre la cual construir cualquier procesador de lenguaje
natural, que habrá de
considerar, con ulterioridad,
la sintaxis y la semántica; se debe destacar la gran utilidad de
sus aplicaciones en
enseñanza de la lengua,
manejo de diccionarios, motores para búsquedas textuales, lematización,
desambiguación,
análisis y generación
de texto, tratamiento de corpus, etcétera.
Tanto por la complejidad
de las reglas de formación de las palabras, como por la abundancia
de excepciones, el
tratamiento por ordenador
de la morfología del español constituye un campo de investigación
con serias dificultades.
La mayor sistematización
se alcanza en la conjugación verbal y -no exenta de irregularidades
ni de excepciones-, el
género y el número
de las formas nominales se encuentran bastante estudiados y los aspectos
con una menor
teorización en torno
a ellos son la derivación -no tanto la apreciativa como la que conlleva
cambio en la categoría
gramatical- y sobre todo
la composición.
El procesador morfológico
desarrollado por el Grupo de Estructuras de Datos y Lingüística
Computacional de la
Universidad de Las Palmas
de Gran Canaria, se enmarca en un conjunto de herramientas orientadas a
servir de
ayuda en la elaboración
de documentos escritos -dedicadas a analizar el texto y a ofrecer facilidades
para la
creación literaria-
tales como frecuencia de aparición de palabras, empleo de formas
verbales, corrección
ortográfica, búsquedas
en texto libre, detección de vicios, depuración de estilos,
diccionarios de sinónimos o
ideológicos, etcétera.
Y posee las siguientes características:
1.Identifica
la forma canónica con su categoría gramatical y la flexión
o derivación que presenta una palabra del
español.
2.Genera una
determinada forma flexionada o derivada a partir de la forma canónica.
En ambos procesos se consideran:
a.Las flexiones
y derivaciones:
1.La conjugación simple y compuesta en todos sus modos, tiempos,
números y personas.
2.La presencia de hasta tres pronombres enclíticos.
3.Las flexiones del participio como adjetivo verbal: género, número,
grado superlativo, adverbialización y
adverbialización del superlativo.
4.El diminutivo del gerundio.
5.El género y el número en los sustantivos, adjetivos, pronombres
y artículos.
6.La heteronimia por cambio de sexo en los sustantivos.
7.El grado superlativo en los adjetivos y adverbios.
8.La adverbialización y la adverbialización del superlativo
en los adjetivos.
9.La derivación apreciativa en los sustantivos, adjetivos y adverbios.
10.Variantes gráficas en las formas canónicas.
b.Las formas
invariantes tales como preposiciones, conjunciones, exclamaciones, palabras
de otros idiomas y
locuciones o frases.
c.La aparición
de prefijos en las palabras que lo admiten.
El análisis de una
palabra se lleva a cabo mediante: a) segmentación en posibles pares
raíz-terminación,
b) localización de
cada una de las raíces, c) decodificación de la terminación
y d) construcción de la forma canónica
de la que proviene; el resultado
también aporta su categoría gramatical. La generación
de una forma derivada o
flexionada de una forma
canónica se logra gracias a: a) la detección de la raíz
y b) la búsqueda de la terminación que
corresponda a la forma que
se desee conseguir. Tanto el análisis como la generación
operan sobre una misma
estructura de datos, recorrerla
en sentidos contrarios implica que la herramienta funcione en una u otra
modalidad.
Las 124444 formas canónicas
de partida abarcan todas las entradas del Diccionario de la Lengua Española
de la
Real Academia, del Diccionario
General de la Lengua Española Vox, del Diccionario de Uso del Español
de María
Moliner, del Gran Diccionario
de la Lengua Española de Larousse-Planeta, del Diccionario de Uso
del Español
Actual "Clave", del Diccionario
de voces de uso actual dirigido por Manuel Alvar Ezquerra, del Gran Diccionario
de
Sinónimos y Antónimos
de Espasa-Calpe y del Diccionario Ideológico de la Lengua Española
de Julio Casares.
El universo de formas tanto
reconocibles como generables se compone de más de tres millones
trescientas mil
formas no verbales, un millón
de formas conjugadas simples y otras tantas compuestas; de las doscientas
mil formas
(simples y compuestas) que
típicamente añaden pronombres enclíticos -infinitivos,
gerundios e imperativos- se
producen unos veinte millones
de formas al incorporar los pronombres. Gran parte de este universo -unos
veinticinco
millones de formas- puede
multiplicarse por un factor cercano al número de los ochenta prefijos
tantas veces como
éstos se concatenen;
por ejemplo, combinando con un prefijo todas las formas del universo se
superarían los dos mil
millones de palabras -semejante
corpus ocuparía una treintena de gigabytes.
El procesador morfológico en Internet
El Grupo de Estructuras de
Datos y Lingüística Computacional de la Universidad de Las
Palmas de Gran Canaria ha
diseñado un conjunto
amigable y eficaz de páginas para la realización de peticiones
y la obtención de respuestas en
Internet del procesador
morfológico desarrollado. Con el uso libre y discrecional de la
aplicación se garantiza su
utilización por un
amplio espectro de usuarios, con independencia de su situación geográfica.
La página que primero
aparece es la del Flexionador y lematizador de palabras del español.
Junto a Entre una
forma a lematizar existe
una caja de libre edición que permite introducir la forma -el análisis
se lleva a efecto al
hacer clic en el botón
Reconoce. Los enlaces que figuran al pie, Flexión verbo, Flexión
sustantivo, Flexión adjetivo y
Flexión otras formas,
conducen a las páginas flexionadoras correspondientes.
En la página Resultados
de la lematización aparecen las formas canónicas identificadas
seguidas de su categoría
gramatical, la relación
de flexión o derivación entre la forma introducida y la canónica
y el prefijo cuando se detecte.
Al picar sobre una forma
canónica, o sobre el Flexionar que aparece junto a ella, entra en
juego la página
flexionadora respectiva
que incluye en su caja de entrada editable la forma correspondiente. Entre
los enlaces al pie
de página figura
el de Lematización con el que se vuelve a la página Flexionador
y lematizador de palabras del
español.
La página Flexionador:
verbo permite conjugar los diferentes tiempos simples y compuestos para
cada uno de los
modos, añadir pronombres
enclíticos y componer con prefijos. La incorporación de pronombres
está organizada
según el número
a considerar; en cada lista aparecen en orden alfabético las opciones
válidas para uno, dos o tres
pronombres -su localización
es sencilla y no aceptan edición a fin de evitar errores. Al seleccionar
la opción Flexión
del participio como adjetivo
verbal se obtienen los cambios de género y número, la adverbialización,
el grado
superlativo y la adverbialización
del superlativo. Si el verbo es defectivo, sólo aparecen aquellas
personas y números
que admite en el tiempo
correspondiente.
La página Flexionador:
sustantivo faculta los cambios de género y número, la derivación
apreciativa y la adición de
prefijos. Al solicitar un
cambio de género en un sustantivo que manifiesta heteronimia por
cambio de sexo, la flexión
actúa sobre su forma
heteronímica. Cuando una forma canónica soporta variantes
gráficas, se muestran todas las
que admiten la flexión
solicitada.
La página Flexionador:
adjetivo acepta los cambios de género y número, la derivación
apreciativa, el grado
superlativo, la adverbialización,
la adverbialización del superlativo y la incorporación de
prefijos. Cuando una forma
canónica soporta
variantes gráficas, se muestran todas las que admiten la flexión
solicitada.
La página Flexionador:
otras formas contempla los cambios de género y número y la
derivación a formas
apreciativas o superlativas.
Como no se dispone de reglas
que rijan la secuencialización de los prefijos por falta de cuerpo
teórico, en las
páginas Flexionador:
verbo, Flexionador: sustantivo y Flexionador: adjetivo se ha optado por
escoger hasta tres
prefijos seleccionándolos
de las listas alfabéticas de Prefijos: Primero, Segundo y Tercero
-no aceptan edición a
fin de evitar errores.
Próximas ampliaciones en Internet
En breve, el lematizador permitirá realizar el análisis morfológico de un texto de tamaño razonable.
A partir de un conjunto de
relaciones morfológicas entre formas canónicas se obtendrán
las formas derivadas que
conlleven cambio de categoría
gramatical -sustantivación y adjetivación para los verbos;
sustantivos y adjetivos
deverbales.
Agradecimientos
Queremos agradecer al profesor
Dr. Manuel Alvar Ezquerra del Departamento de Filogía Española
I de la
Universidad Complutense
de Madrid, al profesor Dr. Juan Manuel García Platero y a la profesora
Dra. María
Auxiliadora Castillo Carballo
del Departamento de Lengua Española, Lingüística y Teoría
de la Literatura de la
Universidad de Sevilla su
colaboración en cuantas consultas le hemos formulado a lo largo
del desarrollo del
presente trabajo.
Referencias
Trabajos desarrollados por
el Grupo de Estructuras de Datos y Lingüística Computacional
Published 05/99, Lexicon
Planet Ltd
All rights reserved