Estudio e implementación de una técnica de clustering dinámico para trabajar con flujos de datos

Detalles Bibliográficos
Autor Principal: Molina, Roberto Pedro
Otros autores o Colaboradores: Hasperué, Waldo (Director/a)
Formato: Tesis
Lengua:español
Datos de publicación: 2018
Temas:
Acceso en línea:http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2016
Consultar en el Cátalogo
Descripción Física:123 p. : il. col. + 1 DVD
Tabla de Contenidos:
  • Capítulo 1 : Flujos de Datos
  • Introducción
  • Origen
  • El Modelo de Flujos de datos
  • Características como Restricciones
  • Consultas sobre Flujos de datos
  • Modelo general para un algoritmo de Data Streaming
  • Ventanas de tiempo
  • Enfoques Computacionales
  • Aplicaciones
  • Capítulo 2 : Apache Spark
  • Introducción
  • ¿Qué es Apache Spark?
  • Componentes de Spark
  • Arquitectura
  • Modelo de procesamiento en paralelo: RDDs
  • Funciones sobre RDD: Transformaciones y Acciones
  • Transformaciones definidas en la API
  • Acciones definidas en la API
  • Evaluación lazy
  • Persistencia y administración de memoria
  • Tolerancia a Fallos
  • Anatomía de una aplicación en Spark
  • DAG
  • Spark Streaming
  • Arquitectura y Abstracción sobre Spark
  • API DStream
  • Transformaciones
  • Operaciones Output
  • Capítulo 3 : Clustering
  • Data Stream Clustering
  • BIRCH
  • Clustering Feature (CF)
  • CF Tree
  • Algoritmo BIRCH
  • Problemas con CF Tree
  • ClusTree
  • ClusTree: Micro Clusters e inserciones Anytime
  • Definición de ClusTree
  • Método para mantener actualizado los clusters
  • Manejo de flujos muy rápidos: aceleración a través de la agregación
  • Generación de Macro-Clusters
  • CluStream
  • Micro-clusters
  • Pyramidal Time Frame
  • Online Clustering con CluStream
  • Offline Clustering con Clustream
  • DenStream
  • Core-micro-cluster
  • Metodología de procesamiento
  • Fase Online: Micro-clusters
  • Fase Offline: Generación de resultados
  • Capítulo 4 : D3CAS, Nuevo algoritmo para Streaming Clustering
  • Análisis y Motivación
  • Diseño
  • Ventana de Tiempo
  • Metodología Online-offline
  • Online-offline sobre la arquitectura distribuida
  • Online
  • Formato de entrada
  • Micro Clusters
  • Modelo Micro-cluster
  • Generación
  • Offline
  • Recolección
  • Agrupación basa en densidad
  • Actualización temporal
  • Modelo de los resultados
  • Implementación en Apache Spark Streaming
  • Cuadro Comparativo
  • Pseudo código D3CAS
  • Capítulo 5 : Evaluación y comparación
  • Conceptos para la validez de agrupaciones
  • Silhouette
  • Definición de Silhouette
  • Evaluaciones y comparaciones
  • Detección dinámica
  • Comparación de resultados
  • Comparación con clusters con formas arbitrarias (no-esféricos)
  • Reducción del Flujo de datos
  • Conclusión
  • Trabajos Futuros
  • Referencias bibliográficas