De un reconocedor y generador morfológico del español en Internet

        Autores: Santana, O.; Pérez, J.; Carreras, F.; Hernández, Z.; Rodríguez, G.; Duque, J.D.
        Universidad de las Palmas de Gran Canaria
 

        Del procesador morfológico

        El interés que despierta un procesador morfológico radica en que el tratamiento automatizado de la morfología del
        español constituye la primera piedra sobre la cual construir cualquier procesador de lenguaje natural, que habrá de
        considerar, con ulterioridad, la sintaxis y la semántica; se debe destacar la gran utilidad de sus aplicaciones en
        enseñanza de la lengua, manejo de diccionarios, motores para búsquedas textuales, lematización, desambiguación,
        análisis y generación de texto, tratamiento de corpus, etcétera.

        Tanto por la complejidad de las reglas de formación de las palabras, como por la abundancia de excepciones, el
        tratamiento por ordenador de la morfología del español constituye un campo de investigación con serias dificultades.
        La mayor sistematización se alcanza en la conjugación verbal y -no exenta de irregularidades ni de excepciones-, el
        género y el número de las formas nominales se encuentran bastante estudiados y los aspectos con una menor
        teorización en torno a ellos son la derivación -no tanto la apreciativa como la que conlleva cambio en la categoría
        gramatical- y sobre todo la composición.

        El procesador morfológico desarrollado por el Grupo de Estructuras de Datos y Lingüística Computacional de la
        Universidad de Las Palmas de Gran Canaria, se enmarca en un conjunto de herramientas orientadas a servir de
        ayuda en la elaboración de documentos escritos -dedicadas a analizar el texto y a ofrecer facilidades para la
        creación literaria- tales como frecuencia de aparición de palabras, empleo de formas verbales, corrección
        ortográfica, búsquedas en texto libre, detección de vicios, depuración de estilos, diccionarios de sinónimos o
        ideológicos, etcétera. Y posee las siguientes características:

          1.Identifica la forma canónica con su categoría gramatical y la flexión o derivación que presenta una palabra del
            español.
          2.Genera una determinada forma flexionada o derivada a partir de la forma canónica.

        En ambos procesos se consideran:

          a.Las flexiones y derivaciones:
              1.La conjugación simple y compuesta en todos sus modos, tiempos, números y personas.
              2.La presencia de hasta tres pronombres enclíticos.
              3.Las flexiones del participio como adjetivo verbal: género, número, grado superlativo, adverbialización y
                adverbialización del superlativo.
              4.El diminutivo del gerundio.
              5.El género y el número en los sustantivos, adjetivos, pronombres y artículos.
              6.La heteronimia por cambio de sexo en los sustantivos.
              7.El grado superlativo en los adjetivos y adverbios.
              8.La adverbialización y la adverbialización del superlativo en los adjetivos.
              9.La derivación apreciativa en los sustantivos, adjetivos y adverbios.
             10.Variantes gráficas en las formas canónicas.
          b.Las formas invariantes tales como preposiciones, conjunciones, exclamaciones, palabras de otros idiomas y
            locuciones o frases.
          c.La aparición de prefijos en las palabras que lo admiten.

        El análisis de una palabra se lleva a cabo mediante: a) segmentación en posibles pares raíz-terminación,
        b) localización de cada una de las raíces, c) decodificación de la terminación y d) construcción de la forma canónica
        de la que proviene; el resultado también aporta su categoría gramatical. La generación de una forma derivada o
        flexionada de una forma canónica se logra gracias a: a) la detección de la raíz y b) la búsqueda de la terminación que
        corresponda a la forma que se desee conseguir. Tanto el análisis como la generación operan sobre una misma
        estructura de datos, recorrerla en sentidos contrarios implica que la herramienta funcione en una u otra modalidad.

        Las 124444 formas canónicas de partida abarcan todas las entradas del Diccionario de la Lengua Española de la
        Real Academia, del Diccionario General de la Lengua Española Vox, del Diccionario de Uso del Español de María
        Moliner, del Gran Diccionario de la Lengua Española de Larousse-Planeta, del Diccionario de Uso del Español
        Actual "Clave", del Diccionario de voces de uso actual dirigido por Manuel Alvar Ezquerra, del Gran Diccionario de
        Sinónimos y Antónimos de Espasa-Calpe y del Diccionario Ideológico de la Lengua Española de Julio Casares.

        El universo de formas tanto reconocibles como generables se compone de más de tres millones trescientas mil
        formas no verbales, un millón de formas conjugadas simples y otras tantas compuestas; de las doscientas mil formas
        (simples y compuestas) que típicamente añaden pronombres enclíticos -infinitivos, gerundios e imperativos- se
        producen unos veinte millones de formas al incorporar los pronombres. Gran parte de este universo -unos veinticinco
        millones de formas- puede multiplicarse por un factor cercano al número de los ochenta prefijos tantas veces como
        éstos  se concatenen; por ejemplo, combinando con un prefijo todas las formas del universo se superarían los dos mil
        millones de palabras -semejante corpus ocuparía una treintena de gigabytes.

        El procesador morfológico en Internet

        El Grupo de Estructuras de Datos y Lingüística Computacional de la Universidad de Las Palmas de Gran Canaria ha
        diseñado un conjunto amigable y eficaz de páginas para la realización de peticiones y la obtención de respuestas en
        Internet del procesador morfológico desarrollado. Con el uso libre y discrecional de la aplicación se garantiza su
        utilización por un amplio espectro de usuarios, con independencia de su situación geográfica.

        La página que primero aparece es la del Flexionador y lematizador de palabras del español. Junto a Entre una
        forma a lematizar existe una caja de libre edición que permite introducir la forma -el análisis se lleva a efecto al
        hacer clic en el botón Reconoce. Los enlaces que figuran al pie, Flexión verbo, Flexión sustantivo, Flexión adjetivo y
        Flexión otras formas, conducen a las páginas flexionadoras correspondientes.

        En la página Resultados de la lematización aparecen las formas canónicas identificadas seguidas de su categoría
        gramatical, la relación de flexión o derivación entre la forma introducida y la canónica y el prefijo cuando se detecte.
        Al picar sobre una forma canónica, o sobre el Flexionar que aparece junto a ella, entra en juego la página
        flexionadora respectiva que incluye en su caja de entrada editable la forma correspondiente. Entre los enlaces al pie
        de página figura el de Lematización con el que se vuelve a la página Flexionador y lematizador de palabras del
        español.

        La página Flexionador: verbo permite conjugar los diferentes tiempos simples y compuestos para cada uno de los
        modos, añadir pronombres enclíticos y componer con prefijos. La incorporación de pronombres está organizada
        según el número a considerar; en cada lista aparecen en orden alfabético las opciones válidas para uno, dos o tres
        pronombres -su localización es sencilla y no aceptan edición a fin de evitar errores. Al seleccionar la opción Flexión
        del participio como adjetivo verbal se obtienen los cambios de género y número, la adverbialización, el grado
        superlativo y la adverbialización del superlativo. Si el verbo es defectivo, sólo aparecen aquellas personas y números
        que admite en el tiempo correspondiente.

        La página Flexionador: sustantivo faculta los cambios de género y número, la derivación apreciativa y la adición de
        prefijos. Al solicitar un cambio de género en un sustantivo que manifiesta heteronimia por cambio de sexo, la flexión
        actúa sobre su forma heteronímica. Cuando una forma canónica soporta variantes gráficas, se muestran todas las
        que admiten la flexión solicitada.

        La página Flexionador: adjetivo acepta los cambios de género y número, la derivación apreciativa, el grado
        superlativo, la adverbialización, la adverbialización del superlativo y la incorporación de prefijos. Cuando una forma
        canónica soporta variantes gráficas, se muestran todas las que admiten la flexión solicitada.

        La página Flexionador: otras formas contempla los cambios de género y número y la derivación a formas
        apreciativas o superlativas.

        Como no se dispone de reglas que rijan la secuencialización de los prefijos por falta de cuerpo teórico, en las
        páginas Flexionador: verbo, Flexionador: sustantivo y Flexionador: adjetivo se ha optado por escoger hasta tres
        prefijos seleccionándolos de las listas alfabéticas de Prefijos: Primero, Segundo y Tercero -no aceptan edición a
        fin de evitar errores.

        Próximas ampliaciones en Internet

        En breve, el lematizador permitirá realizar el análisis morfológico de un texto de tamaño razonable.

        A partir de un conjunto de relaciones morfológicas entre formas canónicas se obtendrán las formas derivadas que
        conlleven cambio de categoría gramatical -sustantivación y adjetivación para los verbos; sustantivos y adjetivos
        deverbales.

        Agradecimientos

        Queremos agradecer al profesor Dr. Manuel Alvar Ezquerra del Departamento de Filogía Española I de la
        Universidad Complutense de Madrid, al profesor Dr. Juan Manuel García Platero y a la profesora Dra. María
        Auxiliadora Castillo Carballo del Departamento de Lengua Española, Lingüística y Teoría de la Literatura de la
        Universidad de Sevilla su colaboración en cuantas consultas le hemos formulado a lo largo del desarrollo del
        presente trabajo.

        Referencias

        Trabajos desarrollados por el Grupo de Estructuras de Datos y Lingüística Computacional
 

        Published 05/99, Lexicon Planet Ltd
        All rights reserved