Una Aplicación para el Procesamiento de la Prefijación en Español
Octavio SANTANA SUÁREZ
Grupo de Estructuras de Datos y Lingüística Computacional
Departamento de Informática y Sistemas, Universidad de Las Palmas de Gran Canaria
Las Palmas de Gran Canaria, 35017, Islas Canarias, España
Francisco J. CARRERAS RIUDAVETS
Grupo de Estructuras de Datos y Lingüística Computacional
Departamento de Informática y Sistemas, Universidad de Las Palmas de Gran Canaria
Las Palmas de Gran Canaria, 35017, Islas Canarias, España
José R. PÉREZ AGUIAR
Grupo de Estructuras de Datos y Lingüística Computacional
Departamento de Informática y Sistemas, Universidad de Las Palmas de Gran Canaria
Las Palmas de Gran Canaria, 35017, Islas Canarias, España
y
Gustavo RODRÍGUEZ RODRÍGUEZ
Grupo de Estructuras de Datos y Lingüística Computacional
Departamento de Informática y Sistemas, Universidad de Las Palmas de Gran Canaria
Las Palmas de Gran Canaria, 35017, Islas Canarias, España
RESUMEN
En este trabajo se presenta una aplicación que gestiona los prefijos usados en español para la formación de palabras deducidas a partir de un corpus de 148 798 formas canónicas. Se desarrolla un sistema capaz de resolver y responder a cualquier aspecto morfológico de una palabra del español que abarca todo lo relacionado con la morfología derivativa y otros aspectos cercanos. Permite el reconocimiento, la generación y la manipulación del proceso formativo prefijal que ha sufrido cualquier forma canónica del corpus, categoría gramatical de la base y de la palabra formada, incluye la recuperación de toda su información lexicogenética hasta llegar a una primitiva, la gestión y control de los prefijos en el tratamiento de sus relaciones, así como la regularidad en su formación.
Palabras Claves: Morfología, Lematización, Derivación, Prefijación, Lingüística Computacional, Procesamiento del Lenguaje Natural.
El objetivo principal de este trabajo es automatizar la prefijación por su importancia en la morfología del español. A través de la prefijación, unas palabras dan lugar a otras, y éstas a su vez a la de otras; al aplicar sucesivamente este proceso de formación se establecen vínculos familiares entre vocablos. Las familias de palabras que se relacionan son de gran utilidad en aplicaciones de procesamiento del lenguaje natural: buscadores automáticos, correctores ortográficos, analizadores de estilo, generadores automáticos de texto, etc. En un estudio sincrónico de la automatización de la morfología con medios informáticos, los aspectos formales o teóricos no tienen por qué coincidir con los estrictamente lingüísticos; se salvan así unas barreras que impedirían tratar aspectos de interés para el procesamiento del lenguaje natural más allá de la prefijación. Resulta obvio que, inusitado significa ‘no usado’, inepto significa ‘no apto’ e incompetente significa ‘no competente’, por lo que poseen valores de negación relacionados con usado, apto y competente, y no todas han sufrido un proceso de prefijación en español dado que las dos primeras son primitivas.
Para la realización de este trabajo se ha creado un corpus de palabras a partir del léxico de distintos diccionarios: el Diccionario de la Lengua Española (DRAE), el Diccionario General de la Lengua Española (VOX), el Diccionario de Uso del Español (MARÍA MOLINER), el Gran Diccionario de la Lengua Española (LAROUSSE), el Diccionario de Uso del Español Actual (CLAVE SM), el Diccionario de Sinónimos y Antónimos (ESPASA CALPE), el Diccionario Ideológico de la Lengua Española (JULIO CASARES) y el Diccionario de Voces de Uso Actual (MANUEL ALVAR EZQUERRA).
Se define forma canónica a todo vocablo con identidad propia susceptible de aplicársele o de habérsele aplicado en su formación algún mecanismo de prefijación; en el corpus de referencia, se consideran formas canónicas las palabras que aparecen como entradas en las fuentes consultadas, siempre que posean un significado institucionalizado.
Se añaden además, unos 1 240 nombres propios, no incluidos como entradas en las fuentes consultadas, relacionados con gentilicios y otros adjetivos y sustantivos del tipo ‘seguidor de’ o ‘doctrina’ ―marxista, marxismo de Marx― entre otros significados; y unos 9 000 adjetivos procedentes de participios verbales que tampoco han sido recogidos como entradas en dichas fuentes.
El universo de formas canónicas analizadas para conseguir el objetivo de la aplicación que se presenta se compone de 148 798 formas canónicas ―134 645 no verbales y 14 153 verbales.
La prefijación constituye uno de los procesos de formación de palabras en español. Aunque puede verse cierto paralelismo con la sufijación, suele considerarse como parte de la composición ―cuestión muy debatida entre los lingüistas, y sobre la que no se entra en este trabajo. Independientes de la flexión de la palabra, los prefijos no suelen producir cambios de categoría gramatical; normalmente matizan, corrigen, modifican y, en definitiva, orientan el significado de la palabra. En particular, algunos de ellos tienen significación de negación ―útiles, por ejemplo, en la relación de antonimia. Aparte de la prefijación mediante elementos tradicionales, existe la composición mediante elementos prefijales, entre otras formas de composición. Dado que sobrepasan el concepto de prefijo considerado, por la fuerte carga semántica que aportan dichos elementos ―hidroavión―, no se tomarán en cuenta en este trabajo tales procesos compositivos.
La alteración prefijal, normalmente adición de un prefijo, proporciona una fuente de relaciones que complementa las establecidas a partir de las alteraciones sufijales [8], [9], [10], [12]. La relación entre una palabra original y una forma prefijada es semántica, funcional y formal. En el aspecto semántico, el prefijo incorpora un matiz específico que le es propio, pero la carga semántica principal corresponde a la palabra original. Las funciones sintácticas y gramaticales suelen mantenerse en la forma prefijada, aunque eventualmente podrá producirse transcategorización, más por la forma de uso que por el propio proceso de prefijación. Las diferencias formales se ajustan a las reglas generales de prefijación y a las específicas de cada prefijo; aunque existen irregularidades, su incidencia es mucho menor que la que aparece cuando se alteran otras posiciones de la base léxica.
Se puede definir el elemento prefijal, en adelante prefijo, como el afijo que precede a la palabra original. Esta definición es tan amplia que existen dos problemas a la hora de delimitar qué prefijos se consideran en este trabajo sin entrar en la composición propiamente dicha:
Se consideran los vínculos entre una palabra y la que se fomra a partir de cada una de las alteraciones prefijales cuando un prefijo se añade a la primera mediante las correspondientes reglas de unión. Una palabra puede tener un vínculo con otra mediante la adición de un prefijo, y a su vez la palabra prefijada poseer otro vínculo con otra distinta a través de otro prefijo: emitir → transmitir → retransmitir. Se considera la prefijación en sentido amplio, para poder establecer vínculos entre dos palabras: una original y otra prefijada, útiles para el procesamiento del lenguaje natural, pero que este vínculo no tiene por qué concordar con los criterios estrictamente lingüísticos de la prefijación ―obispo → coepíscopo, juez → conyúdice. Estos vínculos se consideran irregularidades de distinto tipo: cambios que afectan a la raíz, vocablos cultos, extranjerismos, influencias de otras lenguas, etc.; de esta manera, se enriquece notablemente la aplicación informática, a pesar de que no reflejen un proceso de prefijación en español.
Uno de los vínculos que se establece entre la palabra original y la formada, como consecuencia de la prefijación, es la transcategorización, ―muy poco productiva pero existente. Las pocas transcategorizaciones observadas resultan del uso de un término como sustantivo o adjetivo y viceversa.
Se presenta a continuación la lista de los 100 prefijos examinados en orden alfabético; para cada uno de ellos se estudian las condiciones de uso, la significación que aporta a la palabra original, y las reglas con que se unen a la misma ―comportamiento en el corpus léxico considerado.
Prefijo Prefijo |
Variantes del prefijo Variantes del prefijo |
Prefijo Prefijo |
Variantes del prefijo Variantes del prefijo |
a- |
a-,an- |
infra- |
infra- |
ab- |
ab-,abs- |
inter- |
inter- |
abiso- |
abiso- |
intra- |
intra-,intro- |
acro- |
acro- |
iso- |
iso- |
ad- |
ad-,ac- |
macro- |
macro- |
al- |
al- |
maxi- |
maxi- |
ambi- |
ambi- |
mega- |
mega-,megalo- |
ana- |
ana- |
meso- |
meso-,mes- |
anfi- |
anfi- |
meta- |
meta- |
ante- |
ante-,ant- |
micro- |
micro- |
anti- |
anti- |
mini- |
mini- |
apo- |
apo- |
mono- |
mono-,mon- |
archi- |
archi-,arqui-,arque-,arc-,arz-,arce-,arci- |
multi- |
multi- |
auto- |
auto- |
ob- |
ob-,oc-,of-,op-,o- |
bar- |
bar-,bari-,barí-,baro- |
omni- |
omni- |
bati- |
bati- |
opisto- |
opisto- |
bi- |
bi-,bí-,bis-,biz- |
pan- |
pan-,panto-,pam- |
cachi- |
cachi- |
para- |
para-,pará- |
cata- |
cata- |
pen- |
pen-,pem- |
circa- |
circa- |
per- |
per- |
circun- |
circun-,circum- |
peri- |
peri-,perí- |
cis- |
cis-,citra- |
pluri- |
pluri- |
citra- |
citra- |
plus- |
plus- |
con- |
con-,com-,co- |
poli- |
poli-,polí- |
contra- |
contra- |
por- |
por- |
cuasi- |
cuasi- |
post- |
pos-,post- |
de- |
de- |
pre- |
pre- |
des- |
des- |
preter- |
preter- |
di- |
di- |
pro- |
pro- |
dia- |
dia- |
proto- |
proto- |
diali- |
diali- |
re- |
re- |
dis- |
dis- |
requete- |
requete- |
e- |
e- |
res- |
res- |
ecto- |
ecto- |
retro- |
retro- |
en- |
en-,em- |
semi- |
semi- |
endo- |
endo- |
sin- |
sin-,sim- |
entre- |
entre-,entro- |
so- |
so-,son-,sos-,soz-,sor- |
epi- |
epi-,epí- |
sobre- |
sobre- |
equi- |
equi- |
sota- |
sota-,soto- |
es- |
es- |
sub- |
sub-,su-,sus- |
eu- |
eu- |
super- |
super- |
ex- |
ex- |
supra- |
supra- |
exo- |
exo- |
tatara- |
tatara- |
extra- |
extra- |
tele- |
tele- |
hemi- |
hemi- |
trans- |
trans-,tras- |
hetero- |
hetero |
ultra- |
ultra- |
hiper- |
hiper- |
uni- |
uni- |
hipo- |
hipo- |
vice- |
vice-,viz-,vi- |
homo- |
homo- |
yuxta- |
yuxta- |
in- |
i-,in-,im- |
za- |
za-,zam- |
El prefijo más utilizado en la formación de palabras es des- cuya frecuencia es de 1 815. En la siguiente ilustración se muestra la frecuencia de aparición en el corpus de los prefijos más utilizados en el establecimiento de los vínculos prefijales entre la palabra formada y la palabra original.
Como resultado del trabajo de investigación realizado, se ha desarrollado una aplicación informática capaz de interpretar y manejar con versatilidad los aspectos más relevantes derivados de la prefijación en español.. Para obtener un producto más completo desde el punto de vista del tratamiento automático de la lengua española, se han incorporado a esta aplicación los resultados obtenidos sobre la sufijación en anteriores trabajos. La aplicación representa más una manera de mostrar la potencialidad de un Sistema Computacional de Gestión Morfológica Sufijal y Prefijal del Español que una herramienta finalista. Este Sistema se añade a otra herramienta desarrollada por GEDLC1 para dar lugar a un prototipo de uso personal, sin menoscabo de su integración en otras herramientas útiles para el procesamiento del lenguaje natural como corrección ortográfica, búsqueda avanzada de información, analizadores de texto, desambiguadores, estación lexicográfica, analizadores sintácticos, extracción de información, generación automática de texto, corrección sintáctica y extracción de resúmenes, entre otras.
La aplicación constituye una herramienta de interfaz gráfica, amigable, realizada en lenguaje de programación C++, preparada para ejecutarse en ordenadores personales con sistema operativo Windows 95 o superior y exportable a otros sistemas operativos como Linux y Macintosh. La ocupación de memoria física que demanda es de 1,7 Mbytes y la ocupación en disco de los datos necesarios para su funcionamiento es de 41,7 Mbytes.
La base de conocimiento referente a la sufijación y a la prefijación se compone de: 1) el vocablo original con el que se forma una palabra, 2) la transcategorización que se produce, 3) el sufijo o prefijo utilizado en el proceso, 4) la regularidad lexicográfica y 5) la familia genealógica a la que pertenece. La información se preprocesa con el fin de obtener un formato adecuado para su uso automatizado mediante un dispositivo informático; se generan dos ficheros binarios que disponen los datos en memoria secundaria: índice de palabras y catálogo de relaciones.
El índice de palabras se utiliza para acceder directamente a la familia a la que pertenece cualquier palabra mediante una función de dispersión; almacena: 1) la palabra con su categoría gramatical, 2) el detalle sobre las colisiones, 3) la posición de comienzo de su familia en el catálogo de relaciones, 4) el número de elementos que componen su familia, 5) la información de si la palabra es o no la palabra original de la familia y 6) la clave numérica que identifica la familia a la que pertenece; los apartados 5) y 6) ahorran accesos a disco en las operaciones de búsqueda y recorrido, con lo que aumenta la velocidad de respuesta del sistema. Existe un registro con estas características por cada forma canónica perteneciente a una familia.
El catálogo de relaciones soporta: 1) la palabra con su categoría gramatical, 2) el sufijo o prefijo con el que se establece la relación y 3) la regularidad lexicográfica.
1 FLAPE: Flexionador y Lematizador Automático de Palabras del Español por el Grupo de Investigación de Estructuras de Datos y Lingüística Computacional de la Universidad de Las Palmas de Gran Canaria http://gedlc.ulpgc.es
Del tratamiento de cualquier forma canónica por la función de dispersión se logra la dirección del registro del índice de palabras que contiene la información necesaria para recuperar su familia del catálogo de relaciones. La familia consta de todas las palabras ―en compañía de la información del catálogo de relaciones―, que están vinculadas directa o indirectamente ―a través de otras palabras― con la forma canónica de entrada. Si un vocablo pertenece a varias familias se obtiene un registro por familia.
Navegación
La información ha sido adecuadamente estructurada y catalogada de forma que permita su acceso de manera eficaz. Se detallan las distintas posibilidades lingüísticas que abarca tal sistema.
Lingüísticamente es interesante conocer la familia de palabras vinculadas con una dada a determinada cercanía ―según los procesos de sufijación o de prefijación sufridos. A partir de un vocablo, se pueden obtener los que han sufrido uno o menos procesos formativos ―ascendientes―, los que han sufrido el mismo número de alteraciones ―horizontal― y los que han sufrido más procesos formativos a partir de él ―descendientes. Se detallan a continuación los distintos tipos considerados, utilizando como ejemplo básicamente la familia de palabras vinculadas con permear.
Ascendencia directa: se entiende como tal, el procedimiento inverso de la derivación o de la prefijación: el proceso de obtener la palabra original con la que se ha vinculado un vocablo concreto. Así pues, la ascendencia directa del adjetivo impermeable es el adjetivo permeable y las ascendencias directas del sustantivo impermeabilidad son el sustantivo permeabilidad y el adjetivo impermeable. Si se aplica dos veces la ascendencia directa, se obtendría el «abuelo» de la palabra actual; de esta forma, el ascendiente directo en dos niveles del verbo impermeabilizar es el adjetivo permeable ―el adjetivo permeable no tiene esta opción por no existir dos niveles superiores.
Ascendencia indirecta: se entiende por ascendientes indirectos las palabras vinculadas por sufijación o prefijación con los ascendientes directos y que se encuentran en su mismo nivel genealógico. Se pueden obtener las palabras relacionadas que han sufrido una alteración menos que la palabra actual. Los ascendientes indirectos del adjetivo impermeable son el sustantivo permeancia y el adjetivo permeado. Al igual que ocurre con la ascendencia directa, es de aplicabilidad aquí varios niveles de tratamiento sufijal y prefijal; el ascendiente indirecto del segundo nivel de impermeabilizar da el mismo resultado que para impermeable en un solo nivel.
Horizontalidad: se entiende por dirección horizontal, las palabras vinculadas sufijal o prefijalmente con la misma palabra original y que por lo tanto han sufrido el mismo número de alteraciones afijales. Se logran recuperando el ascendiente directo y aplicándole un nivel de alteración sufijal o prefijal. En cambio, se entiende por horizontalidad de segundo nivel, las palabras relacionadas directamente con algún ascendiente indirecto de nivel uno. Del adjetivo impermeabilizante se obtiene el sustantivo impermeabilización y el adjetivo impermeabilizado.
Descendencia: se entiende por descendencia todas las palabras que han sufrido alteraciones sufijales o prefijales a partir de una palabra original dada. La descendencia de nivel dos incluye los vocablos que poseen una vinculación previa con una misma palabra original: recupera los descendientes de cada uno de los descendientes de la voz original. En la familia de permear, los descendientes del adjetivo impermeable son el sustantivo impermeabilidad y el verbo impermeabilizar. Los descendientes de nivel dos del mismo adjetivo son el sustantivo impermeabilización y los adjetivos impermeabilizado y impermeabilizante.
Filtros
Las respuestas derivadas de los distintos tipos de navegación a partir de un vocablo concreto pueden, en ocasiones, aportar tal volumen de información que dificulte encontrar las palabras que se buscan y los vínculos que se desean observar. Estos filtros permiten la discriminación selectiva de la respuesta de la navegación. Todos los resultados como consecuencia de los distintos tipos de navegación son susceptibles de ser sometidos a filtros de distinta índole ―por funcionalidad, por regularidad y por afijos.
Por funcionaidad: se entiende por filtro funcional la selección por categoría gramatical de las palabras que componen el resultado de una determinada navegación. Si se quieren explorar los sustantivos descendientes de un vocablo, se aplica la navegación descendente y se seleccionan los sustantivos exclusivamente; y si se desean los descendientes no adjetivales, se desciende por todas las posibilidades menos por los adjetivos. Así, en la familia de permear, los descendientes adjetivales del adjetivo permeable son semipermeable e impermeable, la respuesta sin filtro se ha reducido en dos vocablos.
Por regularidad: se puede establecer un filtro en función de la regularidad en el proceso de formación de la palabra. Se aplica sobre la selección de las palabras que componen el resultado de una determinada navegación. Si se quieren explorar las formaciones irregulares horizontales de un vocablo se aplica la navegación horizontal y se seleccionan exclusivamente las palabras que se hayan establecido como irregulares. En la familia de ayudar, el descendiente prefijal irregular del primer nivel es coadyuvar ―la respuesta sin filtro se ha reducido en doce vocablos, adjutor, adjutorio, adyutorio y adyuvante por no ser formas prefijadas y ayuda, ayudado, ayudador, ayudamiento, ayudante, ayudorio, desayudar y entreayudar por ser regulares.
Por afijo: se puede aplicar un filtro basado en el tipo de afijo utilizado en la formación de la palabra. Se ejecuta sobre la selección de las palabras que componen el resultado de una determinada navegación. Esta opción, se enriquece notablemente si se complementa con: 1) la información referente a los atributos de significado, 2) las categorías gramaticales que forman y 3) las categorías gramaticales a las que se aplican. Esta ampliación permite seleccionar una determinada respuesta, por categoría gramatical y por afijos que producen una cierta semántica ―hace muy provechosa su aplicación. Es aplicable la discriminación por uno o por varios afijos simultáneamente de los estudiados en este trabajo, por lo que las combinaciones y posibilidades son notables al filtrar las formadas con sufijos y otros prefijos no deseados en la búsqueda. Por ejemplo, si se quieren explorar las palabras formadas a partir de permeable con prefijos con el significado de ‘medio, casi o mitad’: semi- y hemi-, el resultado sería el adjetivo semipermeable,.