Detección de registros académicos duplicados obtenidos desde repositorios digitales
Autor Principal: | |
---|---|
Otros autores o Colaboradores: | , |
Formato: | Tesis |
Lengua: | español |
Datos de publicación: |
2020
|
Temas: | |
Acceso en línea: | http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2231 Consultar en el Cátalogo |
Descripción Física: | 1 archivo (3,21 MB) : il. col. |
Tabla de Contenidos:
- Capítulo 1 Introducción
- Motivación
- Objetivos
- Objetivo general
- Objetivos secundarios
- Escenario de trabajo
- Ingesta masiva de registros
- Estructura de la tesis
- Capítulo 2 - Marco teórico
- Introducción
- Repositorios digitales
- Repositorios institucionales
- Repositorios institucionales en Argentina
- Metadatos
- Registro de metadatos
- Esquema de metadatos
- Dublin Core
- Perfiles de aplicación
- Identificadores persistentes
- Handle System
- DOI (Digital Object Identifier)
- ORCID
- Interoperabilidad vía OAI-PMH
- Interoperabilidad entre esquemas de metadatos
- Mapeo de metadatos
- Capítulo 3 - Detección de registros académicos duplicados
- Introducción
- Deduplicación de registros
- Heterogeneidad de los datos
- Deduplicación de registros académicos
- Heterogeneidad en los metadatos de distintas fuentes
- Uso de identificadores persistentes
- Técnicas para la detección de registros duplicados
- Modelos probabilísticos de emparejamiento
- Aprendizaje supervisado y semi supervisado
- Técnicas basadas en aprendizaje activo
- Técnicas basadas en distancia
- Enfoques basados en reglas
- Aprendizaje sin supervisión
- Metodologías para optimizar la cantidad de comparaciones
- Soluciones existentes
- Capítulo 4 - Análisis y desarrollo
- Introducción
- Desarrollo de un primer prototipo
- Solución propuesta
- Núcleo de la herramienta
- Esquema de metadatos genérico
- Normalización de la tipología de cada registro
- Engine y algoritmo de comparación
- Reglas
- Resultado asociado a la evaluación de una regla
- Tipos de reglas
- Elección del conjunto de reglas a evaluar
- Lógica de comparación de las reglas
- Comparación de metadatos
- Comparación de autores
- Comparación de títulos
- Comparación de fechas
- Auxiliar utils
- Funciones de similitud entre strings
- Distancia Levenshtein
- Distancia Jaro-Winkler
- Metaphone
- Función utilizada
- Obtención de identificadores
- Resultado de una deduplicación
- Mapeo de metadatos
- Funcionamiento
- Combinación de columnas
- Capítulo 5 - Desarrollo de la aplicación web
- Introducción
- Tecnologías utilizadas
- Aplicación back-end
- Extensiones al modelo
- Tarea de deduplicación
- Tarea de mapeo
- Endpoints principales de la API REST
- Aplicación front-end
- Interfaz de usuario de la herramienta de deduplicación
- Pantalla de inicio
- Formulario para iniciar una tarea
- Detalle de una tarea
- Listado de tareas
- Interfaz de usuario del módulo de mapeo
- Formulario para iniciar una tarea
- Detalle de una tarea
- Listado de tareas
- Capítulo 6 - Proceso de importación y resultados obtenidos
- Introducción
- Proceso para importaciones masivas
- Obtención de registros desde un repositorio
- Mapeo de metadatos a formato genérico
- Deduplicación con registros del repositorio destino
- Reconciliación de metadatos
- Mapeo a formato esperado por el repositorio destino
- Correcciones sobre los metadatos
- Obtención de los objetos digitales asociados a cada registro
- Generar archivo de importación y carga del mismo
- Casos de aplicación
- SCOPUS
- Memoria Académica
- CONICET Digital
- Capítulo 7 - Conclusiones y trabajos futuros
- Conclusión
- Trabajos futuros
- Mejorar performance de la herramienta de deduplicación
- Expandir módulo de comparación de autores
- Enriquecimiento de registros detectados como duplicados
- Explorar enfoque de Aprendizaje Automático
- Incorporar funcionalidad de deduplicación dentro del sistema de repositorio
- Bibliografía