Experimentos de extracción terminológica orientados a la construcción de un tesauro de bibliotecologia
DOI:
https://doi.org/10.5195/biblios.2021.969Palabras clave:
Terminología, Tesauros, Extracción terminológicaResumen
Objetivo. Evaluar dos técnicas de extracción terminológica: extracción terminológica manual y extracción terminológica automatizada, para analizar la efectividad de cada proceso en la obtención de términos útiles para la construcción de un tesauro de bibliotecología.
Metodo. La metodología empleada fue exploratoria-cuantitativa y se fundamentó en dos experimentos de extracción terminológica: (1) extracción manual y (2) extracción automatizada. El proceso de extracción terminológica manual fue llevado a cabo por un profesional con formación académica multidisciplinaria mientras que en la extracción terminológica automatizada se empleó el programa WordStat. Tanto en el proceso de extracción manual como automatizada se partió del mismo corpus, formado por 283,585 palabras que corresponden a 59 artículos de la especialidad publicados en la revista Investigación Bibliotecológica durante los años 2019 y 2020.
Resultados. Los resultados muestran que: la extracción terminológica manual implicó una cantidad considerable de tiempo humano de dedicación pero el 82% de los términos resultaron útiles y fueron establecidos como descritores viables para el tesauro. En comparación la extracción terminológica automatizada fue un proceso que implicó menor tiempo, pero sólo el 12% de los términos resultaron útiles y fueron establecidos como descriptores viables para el tesauro.
Conclusiones. Se encontró que cada una de las técnicas de obtención terminológica resultó útil, pero presentaron diferencias. Mientras la extracción manual implicó un nivel alto de recursos humanos y tiempo, sus resultados se observaron excelentes. En contraste, la extracción automatizada requirió menor inversión humana y tiempo, pero la cantidad de términos útiles también fue menor. Se concluye que la experimentación con diversas técnicas de extracción terminológica es importante, asociada a la base terminológica que constituye el pilar de todo vocabulario controlado.
Citas
ABBAGNANO, Nicola. Diccionario de filosofía. México: Fondo de Cultura Económica, 1963.
ARNTZ, Reiner y PICHT, Heribert. Introducción a la terminología. Madrid: Fundación Germán Sánchez Ruipérez, 1995.
AUGER, Pierre y ROSSEAU, Lois Jean. Metodología de la investigación terminológica. Málaga: Universidad de Málaga, 2003.
BARITÉ, Mario. Garantía literaria y normas para construcción de vocabularios controlados: aspectos epistemológicos y metodológicos. Scire: Representación y organización del conocimiento, v. 15, n. 2, pp. 13-24, 2009.
BENAVENT, Paloma y PARRILLA, Sara. Análisis de la extracción automática de términos con el programa informático ExtraTerm. Fòrum de Recerca, n. 12, pp. 1-10, 2006.
BRÄSCHER, Marisa. Semantic relations in knowledge organization systems. Knowledge Organization, v. 41, n.2, pp. 175-180, 2014.
CABRÉ, María Teresa. La teoría comunicativa de la terminología, una aproximación lingüística a los términos. Dans Revue française de linguistique appliquée, v. 14, pp. 9 -15, 2009.
CABRÉ, María Teresa. La terminología: representación y comunicación elementos para una teoría de base comunicativa y otros artículos. Barcelona: Universitad Pompeu Fabra, 1999.
CURRAS, Emilia. Tesauros: manual de construcción y uso. Madrid: Kaher II, 1998.
CHU, Heting. Information representation and retrieval in the digital age. Medford, New Jersey: Information Today, 2010.
CHUNG, Teresa. A corpus comparison approach for terminology extractión. International Journal of Theoretical and Applied Issues in Specialized Communication, v. 9, pp. 221- 246, 2003.
ESTOPÁ, Rosa. Los extractores de terminología logros y escollos. En ALCINA CAUDET, María Amparo, (coord.). Terminología y sociedad del conocimiento. España: Bern: Peter Lang, 2009, pp. 117-146,
GOLUB, Koraljka; TUDHOPE, Douglas.; ZENG, Marcia y ŽUMER, Maja. Terminogy Registries for knowledge organizatión systems: functionality, use, and attributes. Journal of the association for information science and technology, v. 65. n.9, pp. 1901-1016, 2014.
GUINCHAT, Claire y MENOU, Michel. Introducción general a las ciencias y técnicas de la información y de la documentación. París: UNESCO, 1983.
HJØRLAND, Birger. Semantics and knowledge organization. Annual Review of Information Science and Technology, v. 41, n.1, pp. 367-405, 2007.
HODGE, Gail. Systems of knowledge for digital libraries: beyond traditional authority files. Washington: Council on Library and Information Resources, 2000.
INSTITUTO DE INVESTIGACIONES BIBLIOTECOLÓGICAS Y DE LA INFORMACIÓN. Investigación Bibliotecológica [en línea]. Disponible en: http://rev-ib.unam.mx/ib/index.php/ib (Recuperado el 16 de junio 2020).
INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS. Functional requeriments for subject autority data (FRSAD). A conceptual model. Washington: IFLA, 2010.
INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. Information and documentation-Thesauri and interoperability with other vocabularies-Part 1: Thesauri for information retrieval. Ginebra, Suiza: ISO, 2011.
INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. ISO:2788-1986.Documentation-Guidelines for the establishment and development of monolingual thesauri. Ginebra, Suiza: ISO, 1986.
KUMBHAR, Rajendra. Library classification in the 21 century. Oxford: Chandos Publishing, 2012.
LAGUENS GARCÍA, José Luis. Tesauros y lenguajes controlados en Internet. Anales De Documentación, v. 9, n.9, pp. 105-121, 2006.
LANCASTER, Frederich. W. El control del vocabulario en la recuperación de la información. Valencia: Universidad de Valencia, 2002.
LÓPEZ MATEO, Coral y OLMO CAZEVIEILLE, Françoise. Metodología para la extracción e identificación de candidatos a términos en el ámbito de la bioquímica. Terminàlia, n.16, pp. 18-28, 2017.
LUNA TRAIL, Elizabeth, VIGUERAS ÁVILA, Alejandra y BAEZ PINAL, Gloria. Diccionario básico de lingüística. México: Universidad Nacional Autónoma de México, 2005.
LUO, Zhiwei, XIE, Rong, CHEN, Wen y YE, Zatao. Automatic domain terminology extraction and its evaluation for domain knowledge graph construction. Web Intelligence, v. 16, n.3, pp. 173-185, 2018.
MARQUES CINTRA, Anna, GONÇALVES MOREIRA TÁLAMO, María, LOPES GINEZ DE LARA, Matilda y YUMIKO KOBASHI, Nair. Para entender as linguagens documentárias. São Paulo: Polis, 2002.
NAUMIS PEÑA, Catalina. Los tesauros documentales y su aplicación en la información impresa, digital y multimedia. Buenos Aires: Alfagrama, 2007.
PROVALIS RESEARCH. WordStat: software de análisis de contenido y minería de textos [en línea]. Disponible en: https://provalisresearch.com/es/products/software-de-analisis-de-contenido/ (Recuperado el 16 de junio 2020).
SAGER, Juan. Curso práctico sobre el procesamiento de la terminología. Madrid: Fundación Germán Sánchez Ruipérez: Pirámide, 1993.
SINCLAIR, John y SINCLAIR; Les. Corpus, concordance, collocation. Oxford: Oxford University Press, 1991.
SMIRAGLIA, Richard. Domain analysis for knowledge organization. Nueva York: Chandos, 2015.
STRZALKOWSKI, Tomek. Natural language information retrieval. Kluwer Academic, 1999.
SUÁREZ SANCHEZ, Adriana. Ontologías: fundamentos y aplicaciones, una aproximación desde la perspectiva bibliotecológica. Ciudad de México: Universidad Nacional Autónoma de México, 2018.
VIVALDI, Jorge y RODRÍGUEZ, Horacio. Improving term extraction by commbining differents techniques. Terminology, v. 7, n. 1, pp. 31-48, 2001.
--
Received-Recibido-Recibido: 2021-04-14
Accepted-Aceptado-Aceitado: 2022-12-09
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Los autores que publican en esta revista están de acuerdo en los siguientes términos:
- El Autor retiene los Derechos sobre su Obra, donde el término "Obra" incluirá todos los objetos digitales que pueden resultar de la publicación electrónica posterior y/o distribución.
- Una vez aceptada la Obra, el Autor concede a la Editorial el derecho de la primera publicación de la Obra.
- Además el Autor le concederá a la Editorial y sus agentes el derecho permanente no exclusivo y licencia para publicar, archivar y hacer accesible la obra en su totalidad o en parte, en todas las formas de los medios ahora conocidos o en el futuro, bajo una Licencia Creative Commons de Reconocimiento 4.0 Internacional o su equivalente que, para evitar cualquier duda, permite a otros copiar, distribuir y comunicar públicamente la obra bajo la condición siguiente:
Reconocimiento - otros usuarios deben reconocer los créditos de la Obra de la manera especificada por el Autor o como se indica en el sitio web de la revista;
Entendido de que esta condición pueda ser modificada con permiso del Autor y que, cuando la Obra o cualquiera de sus elementos se halle en el dominio público según la legislación aplicable, que su estatus no esté en absoluto afectado por la licencia. - El Autor es capaz de entrar en acuerdos contractuales independientes, adicionales para la distribución no exclusiva de la versión de la Obra publicada en la revista (por ejemplo, publicarla en un repositorio institucional o publicarla en un libro) siempre y cuando se proporcione en el documento un reconocimiento de su publicación inicial en esta revista científica.
- A los Autores se les permite y apoya a publicar en línea un manuscrito previo (pero no la versión final de la Obra formateada en PDF para la Editorial), en repositorios institucionales o en sus páginas web, antes y durante el proceso de envío, ya que puede dar lugar a intercambios productivos, y a una citación más temprana del trabajo publicado. Dicha Obra después de su aceptación y publicación se deberá actualizar, incluyendo la referencia DOI (Digital Object Identifier) asignada por la Editorial y el enlace al resumen en línea de la versión final publicada en la revista.
- A petición de la Editorial, el Autor se compromete a comunicar y presentar oportunamente al Editor, por cuenta del mismo, las pruebas escritas de los permisos, licencias y autorizaciones para el uso de material de terceros incluido en la Obra, excepto lo determinado por la Editorial a cubrirse por los principios de uso justo.
- El Autor declara y garantiza que:
a. La Obra es un trabajo original del Autor;
b. El Autor no ha transferido y no transferirá, los derechos exclusivos sobre la Obra a un tercero;
c. La Obra no está en evaluación en otra revista científica;
d. La Obra no fue publicada en otra revista científica;
e. La Obra no contiene ninguna tergiversación o infracción al trabajo propiedad de otros autores o terceros, y
f. La Obra no contiene ninguna difamación, invasión de la privacidad, o cualquier otro asunto ilegal. - El Autor se compromete a indemnizar y eximir a la Editorial del incumplimiento por parte del Autor de las declaraciones y garantías contenidas en el párrafo 7 anterior, así como de cualquier reclamación o procedimiento relacionado con el uso y la publicación de la Editorial de cualquier contenido de la Obra, incluido el contenido de terceros.