Experiência de extração de terminologia orientada para a construção de um thesaurus de biblioteconomia
DOI:
https://doi.org/10.5195/biblios.2021.969Palavras-chave:
Extração automática de termos, Extração manual de terminologia, Terminologia, ThesaurusResumo
Objetivo. O objetivo desta arte é avaliar duas técnicas de extração de terminologia: extração manual e extração automatizada, para avaliar a eficácia de cada processo na obtenção de termos úteis para a construção de um thesaurus de biblioteconomia.
Método. A metodologia utilizada foi exploratória-quantitativa e foi baseada em duas experiências de extração de terminologia: (1) extração manual e (2) extração automatizada. O processo de extração de terminologia manual foi realizado por um profissional com treinamento acadêmico multidisciplinar, enquanto o processo de extração de terminologia automatizada foi realizado utilizando o programa WordStat. Tanto o processo de extração manual quanto o automatizado foram baseados no mesmo corpus, consistindo de 283.585 palavras correspondentes a 59 artigos sobre biblioteca e ciência da informação que foram publicados na revista Investigación Bibliotecológica durante os anos de 2019 e 2020.
Resultados. Os resultados mostram que: a extração manual da terminologia forneceu excelentes resultados, 82% dos termos foram úteis e foram estabelecidos como descritores viáveis para o thesaurus. Em comparação, a extração automatizada foi um processo demorado, mas apenas 12% dos termos se mostraram úteis e foram estabelecidos como descritores viáveis para o thesaurus.
Conclusões. Constatou-se que cada uma das técnicas de recuperação terminológica foi útil, mas apresentou diferenças. Embora a extração manual exigisse um alto investimento de recursos humanos e tempo, seus resultados também mostraram alta eficácia. Em contraste, a extração automatizada exigiu menos investimento humano e foi rápida no tempo, mas seus resultados nesta experiência foram menos precisos e úteis. Conclui-se que a experimentação com várias técnicas de extração terminológica é importante, associada à base terminológica que é a pedra angular de qualquer vocabulário controlado.
Referências
ABBAGNANO, Nicola. Diccionario de filosofía. México: Fondo de Cultura Económica, 1963.
ARNTZ, Reiner y PICHT, Heribert. Introducción a la terminología. Madrid: Fundación Germán Sánchez Ruipérez, 1995.
AUGER, Pierre y ROSSEAU, Lois Jean. Metodología de la investigación terminológica. Málaga: Universidad de Málaga, 2003.
BARITÉ, Mario. Garantía literaria y normas para construcción de vocabularios controlados: aspectos epistemológicos y metodológicos. Scire: Representación y organización del conocimiento, v. 15, n. 2, pp. 13-24, 2009.
BENAVENT, Paloma y PARRILLA, Sara. Análisis de la extracción automática de términos con el programa informático ExtraTerm. Fòrum de Recerca, n. 12, pp. 1-10, 2006.
BRÄSCHER, Marisa. Semantic relations in knowledge organization systems. Knowledge Organization, v. 41, n.2, pp. 175-180, 2014.
CABRÉ, María Teresa. La teoría comunicativa de la terminología, una aproximación lingüística a los términos. Dans Revue française de linguistique appliquée, v. 14, pp. 9 -15, 2009.
CABRÉ, María Teresa. La terminología: representación y comunicación elementos para una teoría de base comunicativa y otros artículos. Barcelona: Universitad Pompeu Fabra, 1999.
CURRAS, Emilia. Tesauros: manual de construcción y uso. Madrid: Kaher II, 1998.
CHU, Heting. Information representation and retrieval in the digital age. Medford, New Jersey: Information Today, 2010.
CHUNG, Teresa. A corpus comparison approach for terminology extractión. International Journal of Theoretical and Applied Issues in Specialized Communication, v. 9, pp. 221- 246, 2003.
ESTOPÁ, Rosa. Los extractores de terminología logros y escollos. En ALCINA CAUDET, María Amparo, (coord.). Terminología y sociedad del conocimiento. España: Bern: Peter Lang, 2009, pp. 117-146,
GOLUB, Koraljka; TUDHOPE, Douglas.; ZENG, Marcia y ŽUMER, Maja. Terminogy Registries for knowledge organizatión systems: functionality, use, and attributes. Journal of the association for information science and technology, v. 65. n.9, pp. 1901-1016, 2014.
GUINCHAT, Claire y MENOU, Michel. Introducción general a las ciencias y técnicas de la información y de la documentación. París: UNESCO, 1983.
HJØRLAND, Birger. Semantics and knowledge organization. Annual Review of Information Science and Technology, v. 41, n.1, pp. 367-405, 2007.
HODGE, Gail. Systems of knowledge for digital libraries: beyond traditional authority files. Washington: Council on Library and Information Resources, 2000.
INSTITUTO DE INVESTIGACIONES BIBLIOTECOLÓGICAS Y DE LA INFORMACIÓN. Investigación Bibliotecológica [en línea]. Disponible en: http://rev-ib.unam.mx/ib/index.php/ib (Recuperado el 16 de junio 2020).
INTERNATIONAL FEDERATION OF LIBRARY ASSOCIATIONS AND INSTITUTIONS. Functional requeriments for subject autority data (FRSAD). A conceptual model. Washington: IFLA, 2010.
INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. Information and documentation-Thesauri and interoperability with other vocabularies-Part 1: Thesauri for information retrieval. Ginebra, Suiza: ISO, 2011.
INTERNATIONAL ORGANIZATION FOR STANDARDIZATION. ISO:2788-1986.Documentation-Guidelines for the establishment and development of monolingual thesauri. Ginebra, Suiza: ISO, 1986.
KUMBHAR, Rajendra. Library classification in the 21 century. Oxford: Chandos Publishing, 2012.
LAGUENS GARCÍA, José Luis. Tesauros y lenguajes controlados en Internet. Anales De Documentación, v. 9, n.9, pp. 105-121, 2006.
LANCASTER, Frederich. W. El control del vocabulario en la recuperación de la información. Valencia: Universidad de Valencia, 2002.
LÓPEZ MATEO, Coral y OLMO CAZEVIEILLE, Françoise. Metodología para la extracción e identificación de candidatos a términos en el ámbito de la bioquímica. Terminàlia, n.16, pp. 18-28, 2017.
LUNA TRAIL, Elizabeth, VIGUERAS ÁVILA, Alejandra y BAEZ PINAL, Gloria. Diccionario básico de lingüística. México: Universidad Nacional Autónoma de México, 2005.
LUO, Zhiwei, XIE, Rong, CHEN, Wen y YE, Zatao. Automatic domain terminology extraction and its evaluation for domain knowledge graph construction. Web Intelligence, v. 16, n.3, pp. 173-185, 2018.
MARQUES CINTRA, Anna, GONÇALVES MOREIRA TÁLAMO, María, LOPES GINEZ DE LARA, Matilda y YUMIKO KOBASHI, Nair. Para entender as linguagens documentárias. São Paulo: Polis, 2002.
NAUMIS PEÑA, Catalina. Los tesauros documentales y su aplicación en la información impresa, digital y multimedia. Buenos Aires: Alfagrama, 2007.
PROVALIS RESEARCH. WordStat: software de análisis de contenido y minería de textos [en línea]. Disponible en: https://provalisresearch.com/es/products/software-de-analisis-de-contenido/ (Recuperado el 16 de junio 2020).
SAGER, Juan. Curso práctico sobre el procesamiento de la terminología. Madrid: Fundación Germán Sánchez Ruipérez: Pirámide, 1993.
SINCLAIR, John y SINCLAIR; Les. Corpus, concordance, collocation. Oxford: Oxford University Press, 1991.
SMIRAGLIA, Richard. Domain analysis for knowledge organization. Nueva York: Chandos, 2015.
STRZALKOWSKI, Tomek. Natural language information retrieval. Kluwer Academic, 1999.
SUÁREZ SANCHEZ, Adriana. Ontologías: fundamentos y aplicaciones, una aproximación desde la perspectiva bibliotecológica. Ciudad de México: Universidad Nacional Autónoma de México, 2018.
VIVALDI, Jorge y RODRÍGUEZ, Horacio. Improving term extraction by commbining differents techniques. Terminology, v. 7, n. 1, pp. 31-48, 2001.
--
Received-Recibido-Recibido: 2021-04-14
Accepted-Aceptado-Aceitado: 2022-12-09
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Os autores que publicam neste periódico estão de acordo nos seguintes termos:
- O Autor retém o Direito sobre a sua Obra, onde o termo "Obra" incluirá todos os objetos digitais que podem resultar da publicação eletrônica posterior e/ou distribuição.
- Uma vez aceitada a Obra, o Autor concede à Editorial o direito da primeira publicação da Obra.
- O Autor lhe concederá à Editorial e seus agentes o direito permanente não exclusivo e licença para publicar, arquivar e fazer acessível a Obra em sua totalidade ou em parte, em todas as formas e os meios agora conhecidos ou no futuro, mediante uma Licença Creative Commons Atribuição 4.0 Internacional ou seu equivalente que, para evitar qualquer dúvida, permite a outros copiar, distribuir e comunicar publicamente a Obra nas condições seguintes: Atribuição - outros usuários devem reconhecer a Obra da forma especificada pelo Autor ou como se indica no lugar web do periódico científico; Entendendo que esta condição possa ser modificada com a licença do Autor e que, quando a Obra ou qualquer de seus elementos se ache no domínio público segundo a legislação aplicável, que seu status não esteja em absoluto afetado pela licença.
- O Autor é capaz de entrar em acordos contratuais independentes, adicionais para a distribuição não exclusiva da versão da Obra publicada no periódico científico (por exemplo, publicá-la num repositório institucional ou publicá-la num livro) sempre que se proporcione no documento um reconhecimento de sua publicação inicial neste periódico científico.
- Os Autores estão autorizados e tem o apoio para publicar em linha um manuscrito antes da sua publicação (mas não a versão final da Obra formatada em PDF para a Editorial) em repositórios institucionais ou em seu sitio, antes e durante o processo de envio, já que pode dar lugar a intercâmbios produtivos, e a uma citação primigênia maior do trabalho publicado (ver o efeito do acesso aberto). Dita Obra depois de sua aceitação e publicação se deverá atualizar, incluindo a referência DOI (Digital Object Identifier) atribuída pela Editorial e o vínculo ao resumo em linha da versão final publicada no periódico.
- A petição da Editorial, o Autor se compromete a comunicar e apresentar oportunamente ao Editor, e por conta dele, as provas escritas das permissões, licenças e autorizações para o uso de material de terceiros incluso na Obra, exceto o determinado pela Editorial a cobrir-se pelos princípios de uso justo.
- O Autor declara e garante que:
a. A Obra é um trabalho original do Autor;
b. O Autor não transferiu e não transferirá, os direitos exclusivos sobre a Obra para um terceiro;
c. A Obra não está em avaliação em outro periódico científico;
d. A Obra não foi publicada em outro periódico científico;
e. A Obra não contém nenhuma tergiversação ou infração ao trabalho propriedade de outros autores ou terceiros, e
f. A Obra não contém nenhuma difamação, invasão da privacidade, ou qualquer outro assunto ilegal. - O Autor se compromete a indenizar e eximir à Editorial se não cumprir com as declarações e garantias contidas no parágrafo 7 anterior, assim como de qualquer reclamação ou procedimento relacionado com o uso e a publicação da Editorial de qualquer conteúdo da Obra, incluído o conteúdo de terceiros.