Detección de registros académicos duplicados obtenidos desde repositorios digitales

Detalles Bibliográficos
Autor Principal: Soloaga, Ignacio
Otros autores o Colaboradores: De Giusti, Marisa Raquel (Director/a), Lira, Ariel Jorge (Asesor/a profesional)
Formato: Tesis
Lengua:español
Datos de publicación: 2020
Temas:
Acceso en línea:http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2231
Consultar en el Cátalogo
Descripción Física:1 archivo (3,21 MB) : il. col.
Tabla de Contenidos:
  • Capítulo 1 Introducción
  • Motivación
  • Objetivos
  • Objetivo general
  • Objetivos secundarios
  • Escenario de trabajo
  • Ingesta masiva de registros
  • Estructura de la tesis
  • Capítulo 2 - Marco teórico
  • Introducción
  • Repositorios digitales
  • Repositorios institucionales
  • Repositorios institucionales en Argentina
  • Metadatos
  • Registro de metadatos
  • Esquema de metadatos
  • Dublin Core
  • Perfiles de aplicación
  • Identificadores persistentes
  • Handle System
  • DOI (Digital Object Identifier)
  • ORCID
  • Interoperabilidad vía OAI-PMH
  • Interoperabilidad entre esquemas de metadatos
  • Mapeo de metadatos
  • Capítulo 3 - Detección de registros académicos duplicados
  • Introducción
  • Deduplicación de registros
  • Heterogeneidad de los datos
  • Deduplicación de registros académicos
  • Heterogeneidad en los metadatos de distintas fuentes
  • Uso de identificadores persistentes
  • Técnicas para la detección de registros duplicados
  • Modelos probabilísticos de emparejamiento
  • Aprendizaje supervisado y semi supervisado
  • Técnicas basadas en aprendizaje activo
  • Técnicas basadas en distancia
  • Enfoques basados en reglas
  • Aprendizaje sin supervisión
  • Metodologías para optimizar la cantidad de comparaciones
  • Soluciones existentes
  • Capítulo 4 - Análisis y desarrollo
  • Introducción
  • Desarrollo de un primer prototipo
  • Solución propuesta
  • Núcleo de la herramienta
  • Esquema de metadatos genérico
  • Normalización de la tipología de cada registro
  • Engine y algoritmo de comparación
  • Reglas
  • Resultado asociado a la evaluación de una regla
  • Tipos de reglas
  • Elección del conjunto de reglas a evaluar
  • Lógica de comparación de las reglas
  • Comparación de metadatos
  • Comparación de autores
  • Comparación de títulos
  • Comparación de fechas
  • Auxiliar utils
  • Funciones de similitud entre strings
  • Distancia Levenshtein
  • Distancia Jaro-Winkler
  • Metaphone
  • Función utilizada
  • Obtención de identificadores
  • Resultado de una deduplicación
  • Mapeo de metadatos
  • Funcionamiento
  • Combinación de columnas
  • Capítulo 5 - Desarrollo de la aplicación web
  • Introducción
  • Tecnologías utilizadas
  • Aplicación back-end
  • Extensiones al modelo
  • Tarea de deduplicación
  • Tarea de mapeo
  • Endpoints principales de la API REST
  • Aplicación front-end
  • Interfaz de usuario de la herramienta de deduplicación
  • Pantalla de inicio
  • Formulario para iniciar una tarea
  • Detalle de una tarea
  • Listado de tareas
  • Interfaz de usuario del módulo de mapeo
  • Formulario para iniciar una tarea
  • Detalle de una tarea
  • Listado de tareas
  • Capítulo 6 - Proceso de importación y resultados obtenidos
  • Introducción
  • Proceso para importaciones masivas
  • Obtención de registros desde un repositorio
  • Mapeo de metadatos a formato genérico
  • Deduplicación con registros del repositorio destino
  • Reconciliación de metadatos
  • Mapeo a formato esperado por el repositorio destino
  • Correcciones sobre los metadatos
  • Obtención de los objetos digitales asociados a cada registro
  • Generar archivo de importación y carga del mismo
  • Casos de aplicación
  • SCOPUS
  • Memoria Académica
  • CONICET Digital
  • Capítulo 7 - Conclusiones y trabajos futuros
  • Conclusión
  • Trabajos futuros
  • Mejorar performance de la herramienta de deduplicación
  • Expandir módulo de comparación de autores
  • Enriquecimiento de registros detectados como duplicados
  • Explorar enfoque de Aprendizaje Automático
  • Incorporar funcionalidad de deduplicación dentro del sistema de repositorio
  • Bibliografía