Experimentos de extracción terminológica orientados a la construcción de un tesauro de bibliotecologia

Autores/as

DOI:

https://doi.org/10.5195/biblios.2021.969

Palabras clave:

Terminología, Tesauros, Extracción terminológica

Resumen

Objetivo. Evaluar dos técnicas de extracción terminológica: extracción terminológica manual y extracción terminológica automatizada, para analizar la efectividad de cada proceso en la obtención de términos útiles para la construcción de un tesauro de bibliotecología.

Metodo. La metodología empleada fue exploratoria-cuantitativa y se fundamentó en dos experimentos de extracción terminológica: (1) extracción manual y (2) extracción automatizada. El proceso de extracción terminológica manual fue llevado a cabo por un profesional con formación académica multidisciplinaria mientras que en la extracción terminológica automatizada se empleó el programa WordStat. Tanto en el  proceso de extracción manual como automatizada se partió del mismo corpus, formado por 283,585 palabras que corresponden a 59 artículos de la especialidad publicados en la revista Investigación Bibliotecológica durante los años 2019 y 2020.

Resultados. Los resultados muestran que:  la extracción terminológica manual implicó una cantidad considerable de tiempo humano de dedicación pero el 82% de los términos resultaron útiles y fueron establecidos como descritores viables para el tesauro. En comparación la extracción terminológica automatizada fue un proceso que implicó menor tiempo, pero sólo el 12% de los términos resultaron útiles y fueron establecidos como descriptores viables para el tesauro.

Conclusiones. Se encontró que cada una de las técnicas de obtención terminológica resultó útil, pero presentaron diferencias. Mientras la extracción manual implicó un nivel alto de recursos humanos y tiempo, sus resultados se observaron excelentes. En contraste, la extracción automatizada requirió menor inversión humana y tiempo, pero la cantidad de términos útiles también fue menor. Se concluye que la experimentación con diversas técnicas de extracción terminológica es importante, asociada a la base terminológica que constituye el pilar de todo vocabulario controlado.

Biografía del autor/a

Adriana Suárez-Sánchez, Instituto de Investigaciones Bibliotecológicas y de la Información. Universidad Nacional Autónoma de México.

Licenciada en Lingüística, Maestra en Bibliotecología y Doctora en Bibliotecología y Estudios de la Información. Su área de especialización es la organización temática de la información en contextos digitales, mediante sistemas en red (tesauros, mapas tópicos, folksonomías, taxonomías digitales, ontologías y anillos semánticos). Actualmente labora como Investigadora Asociada en el Instituto de Investigaciones Bibliotecológicas y de la Información de la Universidad Nacional Autónoma de México. Es profesora de asignatura de la materia de Indización en el Colegio de Bibliotecología de la Facultad de Filosofía y Letras de la UNAM y docente de la materia Fundamentos de la Organización Documental en el sistema de Prerrequistos del Posgrado en Bibliotecología y Estudios de la Información de la UNAM.  Su línea de investigación actual es la sistematización y organización de la información desde una perspectiva temática. Ha publicado varios trabajos en revistas nacionales e internacionales sobre: sistemas para la organización del conocimiento, taxonomías, ontologías y folksonomías.

Citas

ABBAGNANO, Nicola. Diccionario de filosofía. México: Fondo de Cultura Económica, 1963.

ARNTZ, Reiner y PICHT, Heribert. Introducción a la terminología. Madrid: Fundación Germán Sánchez Ruipérez, 1995.

AUGER, Pierre y ROSSEAU, Lois Jean. Metodología de la investigación terminológica. Málaga: Universidad de Málaga, 2003.

BARITÉ, Mario. Garantía literaria y normas para construcción de vocabularios controlados: aspectos epistemológicos y metodológicos. Scire: Representación y organización del conocimiento, v. 15, n. 2, pp. 13-24, 2009.

BENAVENT, Paloma y PARRILLA, Sara. Análisis de la extracción automática de términos con el programa informático ExtraTerm. Fòrum de Recerca, n. 12, pp. 1-10, 2006.

BRÄSCHER, Marisa. Semantic relations in knowledge organization systems. Knowledge Organization, v. 41, n.2, pp. 175-180, 2014.

CABRÉ, María Teresa. La teoría comunicativa de la terminología, una aproximación lingüística a los términos. Dans Revue française de linguistique appliquée, v. 14, pp. 9 -15, 2009.

CABRÉ, María Teresa. La terminología: representación y comunicación elementos para una teoría de base comunicativa y otros artículos. Barcelona: Universitad Pompeu Fabra, 1999.

CURRAS, Emilia. Tesauros: manual de construcción y uso. Madrid: Kaher II, 1998.

CHU, Heting. Information representation and retrieval in the digital age. Medford, New Jersey: Information Today, 2010.

CHUNG, Teresa. A corpus comparison approach for terminology extractión. International Journal of Theoretical and Applied Issues in Specialized Communication, v. 9, pp. 221- 246, 2003.

ESTOPÁ, Rosa. Los extractores de terminología logros y escollos. En ALCINA CAUDET, María Amparo, (coord.). Terminología y sociedad del conocimiento. España: Bern: Peter Lang, 2009, pp. 117-146,

GOLUB, Koraljka; TUDHOPE, Douglas.; ZENG, Marcia y ŽUMER, Maja. Terminogy Registries for knowledge organizatión systems: functionality, use, and attributes. Journal of the association for information science and technology, v. 65. n.9, pp. 1901-1016, 2014.

GUINCHAT, Claire y MENOU, Michel. Introducción general a las ciencias y técnicas de la información y de la documentación. París: UNESCO, 1983.

HJØRLAND, Birger. Semantics and knowledge organization. Annual Review of Information Science and Technology, v. 41, n.1, pp. 367-405, 2007.

HODGE, Gail. Systems of knowledge for digital libraries: beyond traditional authority files. Washington: Council on Library and Information Resources, 2000.

INSTITUTO DE INVESTIGACIONES BIBLIOTECOLÓGICAS Y DE LA INFORMACIÓN. Investigación Bibliotecológica [en línea]. Disponible en: http://rev-ib.unam.mx/ib/index.php/ib (Recuperado el 16 de junio 2020).

INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS. Functional requeriments for subject autority data (FRSAD). A conceptual model. Washington: IFLA, 2010.

INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. Information and documentation-Thesauri and interoperability with other vocabularies-Part 1: Thesauri for information retrieval. Ginebra, Suiza: ISO, 2011.

INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. ISO:2788-1986.Documentation-Guidelines for the establishment and development of monolingual thesauri. Ginebra, Suiza: ISO, 1986.

KUMBHAR, Rajendra. Library classification in the 21 century. Oxford: Chandos Publishing, 2012.

LAGUENS GARCÍA, José Luis. Tesauros y lenguajes controlados en Internet. Anales De Documentación, v. 9, n.9, pp. 105-121, 2006.

LANCASTER, Frederich. W. El control del vocabulario en la recuperación de la información. Valencia: Universidad de Valencia, 2002.

LÓPEZ MATEO, Coral y OLMO CAZEVIEILLE, Françoise. Metodología para la extracción e identificación de candidatos a términos en el ámbito de la bioquímica. Terminàlia, n.16, pp. 18-28, 2017.

LUNA TRAIL, Elizabeth, VIGUERAS ÁVILA, Alejandra y BAEZ PINAL, Gloria. Diccionario básico de lingüística. México: Universidad Nacional Autónoma de México, 2005.

LUO, Zhiwei, XIE, Rong, CHEN, Wen y YE, Zatao. Automatic domain terminology extraction and its evaluation for domain knowledge graph construction. Web Intelligence, v. 16, n.3, pp. 173-185, 2018.

MARQUES CINTRA, Anna, GONÇALVES MOREIRA TÁLAMO, María, LOPES GINEZ DE LARA, Matilda y YUMIKO KOBASHI, Nair. Para entender as linguagens documentárias. São Paulo: Polis, 2002.

NAUMIS PEÑA, Catalina. Los tesauros documentales y su aplicación en la información impresa, digital y multimedia. Buenos Aires: Alfagrama, 2007.

PROVALIS RESEARCH. WordStat: software de análisis de contenido y minería de textos [en línea]. Disponible en: https://provalisresearch.com/es/products/software-de-analisis-de-contenido/ (Recuperado el 16 de junio 2020).

SAGER, Juan. Curso práctico sobre el procesamiento de la terminología. Madrid: Fundación Germán Sánchez Ruipérez: Pirámide, 1993.

SINCLAIR, John y SINCLAIR; Les. Corpus, concordance, collocation. Oxford: Oxford University Press, 1991.

SMIRAGLIA, Richard. Domain analysis for knowledge organization. Nueva York: Chandos, 2015.

STRZALKOWSKI, Tomek. Natural language information retrieval. Kluwer Academic, 1999.

SUÁREZ SANCHEZ, Adriana. Ontologías: fundamentos y aplicaciones, una aproximación desde la perspectiva bibliotecológica. Ciudad de México: Universidad Nacional Autónoma de México, 2018.

VIVALDI, Jorge y RODRÍGUEZ, Horacio. Improving term extraction by commbining differents techniques. Terminology, v. 7, n. 1, pp. 31-48, 2001.

--

Received-Recibido-Recibido: 2021-04-14

Accepted-Aceptado-Aceitado: 2022-12-09

Descargas

Publicado

15-12-2022

Cómo citar

Suárez-Sánchez, A. (2022). Experimentos de extracción terminológica orientados a la construcción de un tesauro de bibliotecologia. Biblios Journal of Librarianship and Information Science, (83), 39–56. https://doi.org/10.5195/biblios.2021.969

Número

Sección

Original