EL
RECONOCIMIENTO AUTOMÁTICO DE
Autores
§
Octavio Santana Suárez. Departamento de Informática y
Sistemas. Universidad de Las Palmas de Gran Canaria. osatana@dis.ulpgc.es
§
Francisco Javier Carreras Riudavets. Departamento de Informática y
Sistemas. Universidad de Las Palmas de Gran Canaria. fcarreras@dis.ulpgc.es
§
José Rafael Pérez Aguiar. Departamento de Informática y
Sistemas. Universidad de Las Palmas de Gran Canaria. jperez@dis.ulpgc.es
§
Virginia Gutiérrez Rodríguez. Dpt. Estadística,
Investigación Operativa y Computación. Universidad de La Laguna. vgutier@ull.es
RESUMEN
It deals with
computerizing one of the processes of words formation in Spanish: the
composition. They will solely be studied those cases in which the compound word
has been consolidated like the graphical union of the elements that compose it,
in regular or irregular way. The formation rules and the application criteria
in each case are deduced, consequently, they allow the automated identification
of the compound words. The different compounds are extracted from several
lexical sources and the applied mechanisms of recognition will be studied,
likewise the grammatical categories of original words and the resultant
compound. The found recognition criteria are classified and the detected
exceptions and irregularities are considered.
INTRODUCCIÓN
La creatividad léxica, según Merving Lang (Lang, 1997),
representa una característica fundamental para el habla y
La unión de los miembros en la sinapsia es de naturaleza sintáctica, no morfológica, por lo que
es difícil determinar si se ha producido lexicalización o no; suele existir un
nexo de unión entre las dos palabras que dan lugar al nuevo término,
generalmente con las preposiciones ‘de’
y ‘a’ —pan de azúcar, paso a nivel, cuerda sin fin, flor de
En el presente estudio se tratan, desde un punto de
vista morfológico, los compuestos yuxtapuestos o lexías compuestas, al igual
que algunos casos especiales de acortamiento, elementos compositivos y parasíntesis
por composición. Los restantes tipos no se consideran debido a la dificultad para
justificar que constituyen un verdadero compuesto en español, ya que habría que
tener en cuenta factores sintácticos y semánticos que inicialmente no se
consideran en este trabajo.
REGLAS
DE COMPOSICIÓN
Se parte de una base de unos 4000 compuestos recopilados
del Diccionario General de
Se busca, a
partir del estudio del comportamiento de los vocablos constituyentes del
compuesto, las reglas de formación del mismo; algunas coinciden con las
tratadas por algunos lingüistas, aunque con una adaptación informática
justificada por el comportamiento mayoritario observado —aeriforme à aeri‑ + ‑forme,
según el Diccionario General de
PROCESAMIENTO DE LAS REGLAS
DE COMPOSICIÓN
Se parte de la
palabra compuesta y se comprueba que cumpla unas ciertas condiciones —tamaño de la palabra, mayor a cinco caracteres, o
bien, número de sílabas, mayor que tres: uñalbo. El proceso de reconocimiento propone
partir la palabra hasta que se encuentre un vocablo o ambos, a los que se les
aplica la regla correspondiente o bien se tratan como excepción; se pueden
obtener múltiples soluciones —algunas o todas incorrectas. La secuencia de cortes permite añadir otro tipo
de condicionantes: por ejemplo, las palabras que forman el compuesto no deben
ser derivadas, sino constituir una unidad léxica —no contener prefijos, particularmente
en el primer elemento del compuesto—, o no admitir la flexión del diminutivo en
la segunda palabra del compuesto.
Hay que tener
en cuenta que en un estudio cuyo objetivo sea la automatización de la composición
con medios informáticos, los aspectos formales o teóricos no tienen por qué
coincidir con los estrictamente lingüísticos. Así, *clarovidente —falsa composición, pues lo correcto sería clarividente— no tendría por qué tratarse de una mala formación
al no contravenir ninguna regla fonotáctica del lenguaje, ni siquiera la norma
de la estructura silábica del español.
CONCLUSIONES
Se trata de un trabajo novedoso, ya que han resultado
infructuosas las búsquedas de referencias sobre procesamiento automático de la
composición en español, a pesar de la presumible trascendencia de tal proceso.
Internet y el lenguaje periodístico recogen, con frecuencia, neologismos
compositivos debido a la rápida evolución de los acontecimientos y a su
inmediata trascripción al mundo de las tecnologías de la información: movichandal, ciberamor,
eurosueldo,… Son imprescindibles procesos automáticos que sean capaces de
identificar estas palabras y situarlas en un contexto lingüístico adecuado:
morfológico y semántico.
El reconocimiento
de palabras compuestas en español es útil en aplicaciones para el procesamiento
automático del lenguaje natural, debido a que lleva implícito vínculos
semánticos, sobre todo en los compuestos endocéntricos. Asimismo, potencia las
búsquedas en Internet al ampliar el abanico de relaciones morfoléxicas
deducidas de los compuestos estudiados, sus derivaciones y flexiones
REFERENCIAS
1.
Biblograf, s.a. 2003. “Diccionario General de
2.
Clave SM. 1997. “Diccionario de Uso del Español
Actual”. Clave SM, edición en CD ROM. Madrid.
3.
David Serrano Dolader. 1995. “Las formaciones parasintéticas en español”, Ed.
Arco/Libros, S.L.
4.
Espasa Calpe. 1991.
“Gran Diccionario de Sinónimos y Antónimos”, 4ª edic. Espasa Calpe, Madrid.
5.
Eugenio Bustos
Gisbert. 1986. “La composición nominal en español”, Universidad de Salamanca.
6.
Jose Alberto Miranda. 1994. “La formación de palabras en español”. Ediciones
Colegio de España.
7.
Julio Casares. 1990. “Diccionario Ideológico de
8.
Larousse Planeta, s.a. 1996. “Gran Diccionario de
9.
Manuel Alvar Ezquerra. 2002. “La formación de las palabras en español”. Cuadernos de lengua española, Ed. Arco/Libros,
Madrid.
10. Manuel Alvar Ezquerra. 2003. “Nuevo diccionario de voces de uso actual”. Ed. Arco/Libros, Madrid.
11. María Moliner. 1996. “Diccionario de Uso del Español”,
edición en CD ROM. Gredos, Madrid.
12. Mervyn Francis Lang. 1992. “Formación de palabras en español.
Morfología derivativa productiva en léxico moderno”. Cátedra, Madrid.
13. Ramón Almela
Pérez. 1999. “Procedimientos de formación de palabras en español”. Ed. Ariel Practicum.
14.
Real Academia
Española y Espasa‑Calpe. 2001. “Diccionario de
15. Soledad Varela
Ortega. 1990. “Fundamentos de Morfología”, Ed. Síntesis.
16.
Waldo Pérez
Cino. 2002. “Manual Práctico de formación de palabras en español I”, ed. Verbum.