Experiência de extração de terminologia orientada para a construção de um thesaurus de biblioteconomia

Autores

DOI:

https://doi.org/10.5195/biblios.2021.969

Palavras-chave:

Extração automática de termos, Extração manual de terminologia, Terminologia, Thesaurus

Resumo

Objetivo. O objetivo desta arte é avaliar duas técnicas de extração de terminologia: extração manual e extração automatizada, para avaliar a eficácia de cada processo na obtenção de termos úteis para a construção de um thesaurus de biblioteconomia.
Método. A metodologia utilizada foi exploratória-quantitativa e foi baseada em duas experiências de extração de terminologia: (1) extração manual e (2) extração automatizada. O processo de extração de terminologia manual foi realizado por um profissional com treinamento acadêmico multidisciplinar, enquanto o processo de extração de terminologia automatizada foi realizado utilizando o programa WordStat. Tanto o processo de extração manual quanto o automatizado foram baseados no mesmo corpus, consistindo de 283.585 palavras correspondentes a 59 artigos sobre biblioteca e ciência da informação que foram publicados na revista Investigación Bibliotecológica durante os anos de 2019 e 2020.
Resultados. Os resultados mostram que: a extração manual da terminologia forneceu excelentes resultados, 82% dos termos foram úteis e foram estabelecidos como descritores viáveis para o thesaurus. Em comparação, a extração automatizada foi um processo demorado, mas apenas 12% dos termos se mostraram úteis e foram estabelecidos como descritores viáveis para o thesaurus.
Conclusões. Constatou-se que cada uma das técnicas de recuperação terminológica foi útil, mas apresentou diferenças. Embora a extração manual exigisse um alto investimento de recursos humanos e tempo, seus resultados também mostraram alta eficácia. Em contraste, a extração automatizada exigiu menos investimento humano e foi rápida no tempo, mas seus resultados nesta experiência foram menos precisos e úteis. Conclui-se que a experimentação com várias técnicas de extração terminológica é importante, associada à base terminológica que é a pedra angular de qualquer vocabulário controlado.

Biografia do Autor

Adriana Suárez-Sánchez, Instituto de Investigaciones Bibliotecológicas y de la Información. Universidad Nacional Autónoma de México.

Licenciada en Lingüística, Maestra en Bibliotecología y Doctora en Bibliotecología y Estudios de la Información. Su área de especialización es la organización temática de la información en contextos digitales, mediante sistemas en red (tesauros, mapas tópicos, folksonomías, taxonomías digitales, ontologías y anillos semánticos). Actualmente labora como Investigadora Asociada en el Instituto de Investigaciones Bibliotecológicas y de la Información de la Universidad Nacional Autónoma de México. Es profesora de asignatura de la materia de Indización en el Colegio de Bibliotecología de la Facultad de Filosofía y Letras de la UNAM y docente de la materia Fundamentos de la Organización Documental en el sistema de Prerrequistos del Posgrado en Bibliotecología y Estudios de la Información de la UNAM.  Su línea de investigación actual es la sistematización y organización de la información desde una perspectiva temática. Ha publicado varios trabajos en revistas nacionales e internacionales sobre: sistemas para la organización del conocimiento, taxonomías, ontologías y folksonomías.

Referências

ABBAGNANO, Nicola. Diccionario de filosofía. México: Fondo de Cultura Económica, 1963.

ARNTZ, Reiner y PICHT, Heribert. Introducción a la terminología. Madrid: Fundación Germán Sánchez Ruipérez, 1995.

AUGER, Pierre y ROSSEAU, Lois Jean. Metodología de la investigación terminológica. Málaga: Universidad de Málaga, 2003.

BARITÉ, Mario. Garantía literaria y normas para construcción de vocabularios controlados: aspectos epistemológicos y metodológicos. Scire: Representación y organización del conocimiento, v. 15, n. 2, pp. 13-24, 2009.

BENAVENT, Paloma y PARRILLA, Sara. Análisis de la extracción automática de términos con el programa informático ExtraTerm. Fòrum de Recerca, n. 12, pp. 1-10, 2006.

BRÄSCHER, Marisa. Semantic relations in knowledge organization systems. Knowledge Organization, v. 41, n.2, pp. 175-180, 2014.

CABRÉ, María Teresa. La teoría comunicativa de la terminología, una aproximación lingüística a los términos. Dans Revue française de linguistique appliquée, v. 14, pp. 9 -15, 2009.

CABRÉ, María Teresa. La terminología: representación y comunicación elementos para una teoría de base comunicativa y otros artículos. Barcelona: Universitad Pompeu Fabra, 1999.

CURRAS, Emilia. Tesauros: manual de construcción y uso. Madrid: Kaher II, 1998.

CHU, Heting. Information representation and retrieval in the digital age. Medford, New Jersey: Information Today, 2010.

CHUNG, Teresa. A corpus comparison approach for terminology extractión. International Journal of Theoretical and Applied Issues in Specialized Communication, v. 9, pp. 221- 246, 2003.

ESTOPÁ, Rosa. Los extractores de terminología logros y escollos. En ALCINA CAUDET, María Amparo, (coord.). Terminología y sociedad del conocimiento. España: Bern: Peter Lang, 2009, pp. 117-146,

GOLUB, Koraljka; TUDHOPE, Douglas.; ZENG, Marcia y ŽUMER, Maja. Terminogy Registries for knowledge organizatión systems: functionality, use, and attributes. Journal of the association for information science and technology, v. 65. n.9, pp. 1901-1016, 2014.

GUINCHAT, Claire y MENOU, Michel. Introducción general a las ciencias y técnicas de la información y de la documentación. París: UNESCO, 1983.

HJØRLAND, Birger. Semantics and knowledge organization. Annual Review of Information Science and Technology, v. 41, n.1, pp. 367-405, 2007.

HODGE, Gail. Systems of knowledge for digital libraries: beyond traditional authority files. Washington: Council on Library and Information Resources, 2000.

INSTITUTO DE INVESTIGACIONES BIBLIOTECOLÓGICAS Y DE LA INFORMACIÓN. Investigación Bibliotecológica [en línea]. Disponible en: http://rev-ib.unam.mx/ib/index.php/ib (Recuperado el 16 de junio 2020).

INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS. Functional requeriments for subject autority data (FRSAD). A conceptual model. Washington: IFLA, 2010.

INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. Information and documentation-Thesauri and interoperability with other vocabularies-Part 1: Thesauri for information retrieval. Ginebra, Suiza: ISO, 2011.

INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. ISO:2788-1986.Documentation-Guidelines for the establishment and development of monolingual thesauri. Ginebra, Suiza: ISO, 1986.

KUMBHAR, Rajendra. Library classification in the 21 century. Oxford: Chandos Publishing, 2012.

LAGUENS GARCÍA, José Luis. Tesauros y lenguajes controlados en Internet. Anales De Documentación, v. 9, n.9, pp. 105-121, 2006.

LANCASTER, Frederich. W. El control del vocabulario en la recuperación de la información. Valencia: Universidad de Valencia, 2002.

LÓPEZ MATEO, Coral y OLMO CAZEVIEILLE, Françoise. Metodología para la extracción e identificación de candidatos a términos en el ámbito de la bioquímica. Terminàlia, n.16, pp. 18-28, 2017.

LUNA TRAIL, Elizabeth, VIGUERAS ÁVILA, Alejandra y BAEZ PINAL, Gloria. Diccionario básico de lingüística. México: Universidad Nacional Autónoma de México, 2005.

LUO, Zhiwei, XIE, Rong, CHEN, Wen y YE, Zatao. Automatic domain terminology extraction and its evaluation for domain knowledge graph construction. Web Intelligence, v. 16, n.3, pp. 173-185, 2018.

MARQUES CINTRA, Anna, GONÇALVES MOREIRA TÁLAMO, María, LOPES GINEZ DE LARA, Matilda y YUMIKO KOBASHI, Nair. Para entender as linguagens documentárias. São Paulo: Polis, 2002.

NAUMIS PEÑA, Catalina. Los tesauros documentales y su aplicación en la información impresa, digital y multimedia. Buenos Aires: Alfagrama, 2007.

PROVALIS RESEARCH. WordStat: software de análisis de contenido y minería de textos [en línea]. Disponible en: https://provalisresearch.com/es/products/software-de-analisis-de-contenido/ (Recuperado el 16 de junio 2020).

SAGER, Juan. Curso práctico sobre el procesamiento de la terminología. Madrid: Fundación Germán Sánchez Ruipérez: Pirámide, 1993.

SINCLAIR, John y SINCLAIR; Les. Corpus, concordance, collocation. Oxford: Oxford University Press, 1991.

SMIRAGLIA, Richard. Domain analysis for knowledge organization. Nueva York: Chandos, 2015.

STRZALKOWSKI, Tomek. Natural language information retrieval. Kluwer Academic, 1999.

SUÁREZ SANCHEZ, Adriana. Ontologías: fundamentos y aplicaciones, una aproximación desde la perspectiva bibliotecológica. Ciudad de México: Universidad Nacional Autónoma de México, 2018.

VIVALDI, Jorge y RODRÍGUEZ, Horacio. Improving term extraction by commbining differents techniques. Terminology, v. 7, n. 1, pp. 31-48, 2001.

--

Received-Recibido-Recibido: 2021-04-14

Accepted-Aceptado-Aceitado: 2022-12-09

Publicado

2022-12-15

Como Citar

Suárez-Sánchez, A. (2022). Experiência de extração de terminologia orientada para a construção de um thesaurus de biblioteconomia. Biblios Journal of Librarianship and Information Science, (83), 39–56. https://doi.org/10.5195/biblios.2021.969

Edição

Seção

Original