Proyecto

¡Gracias por tu interés en este proyecto!

El objetivo de estos juegos es confirmar si las categorías gramaticales (p.ej. sustantivo, verbo, interjección, etc.) que se han asignado automáticamente por un programa a cada palabra son correctas, esto con el fin de entrenar nuevos modelos que reconozcan de mejor manera el habla cotidiana de las diferentes regiones de España. El objetivo final de este proyecto consiste en la creación de una herramienta para la investigación dialectal y sociolingüística del español europeo.

Encontrarás que las oraciones contienen palabras de uso coloquial, si bien respetan las normas de puntuación, están escritas tal cual los hablantes las han pronunciado, es decir, no siempre se respeta la ortografía estándar. Para más detalles técnicos sobre el proyecto, te invitamos a leer el siguiente apartado.

No olvides invitar a tus amigos, puedes compartir los juegos mediante los siguientes enlaces de Twitter y Facebook:

Las oraciones que se anotan en estos juegos provienen de conversaciones seleccionadas aleatoriamente del Corpus Oral y Sonoro del Español Rural (COSER, Fernández-Ordóñez 2005-presente; http://www.corpusrural.es), un corpus dialectal del español europeo, y respetan su protocolo de transcripción, el cual se puede consultar aquí: http://www.corpusrural.es/transcripcion.php. Se agrupan las oraciones en zonas regionales teniendo en cuenta la división en las comunidades autónomas de España o agrupaciones de estas, como en el caso de Asturias y León.

La segmentación de oraciones y tokenización se realizó de manera automática con la librería spaCy (Honnibal et al. 2020). El etiquetado de partes del discurso se hizo con el modelo es_core_news_sm de spaCy y ha pasado por una ronda de validación por parte de expertos. El conjunto de datos, denominado COSER-UD, se ha organizado en forma de treebank siguiendo los lineamientos del formato CoNLL-U y el set de etiquetas del proyecto Universal Dependencies (UD; Nivre et al. 2020). Para consultar todas las oraciones segmentadas y etiquetadas en el formato CoN-LLU que conforman el COSER-UD, véase: https://github.ugent.be/jobonill/coser-ud.

Los juegos forman parte del proyecto titulado A Respeaking and Collaborative Game-Based Approach to Building a Parsed Corpus of European Spanish Dialects (Referencia: I000418N; Investigadora principal: M. Bouzouita, proyecto financiado por el Fondo Flamenco de Investigación (Flemish Research Fund-Fonds voor wetenschappelijk onderzoek, FWO). El objetivo final de este proyecto consiste en la creación de una herramienta para la investigación dialectal y sociolingüística a través de la anotación y el parseado del corpus COSER.

COSER = Fernández-Ordóñez, Inés (dir., 2005-presente) Corpus Oral y Sonoro del Español Rural http://www.corpusrural.es (Última consulta: 15/12/2021).

Honnibal, Matthew, Montani, Ines, Van Landeghem, Sofie, Boyd, Adriane (2020) “spaCy: Industrial-strength natural language processing in python”. https://doi.org/10.5281/zenodo.1212303 (Última consulta: 27/03/2022).

Nivre, Joakim, Marneffe, Marie Catherine de, Ginter, Filip, Haji, Jan, Manning, Christopher D., Pyysalo, Sampo, Schuster, Sebastian, Zeman, Francis Tyers Daniel (2020) “Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection” En: LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings. European Language Resources Association (ELRA) 4034–4043 https://arxiv.org/abs/2004.10643v1 (Última consulta: 27/03/2022).