Estudio e implementación de una técnica de clustering dinámico para trabajar con flujos de datos
Autor Principal: | |
---|---|
Otros autores o Colaboradores: | |
Formato: | Tesis |
Lengua: | español |
Datos de publicación: |
2018
|
Temas: | |
Acceso en línea: | http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2016 Consultar en el Cátalogo |
Descripción Física: | 123 p. : il. col. + 1 DVD |
Tabla de Contenidos:
- Capítulo 1 : Flujos de Datos
- Introducción
- Origen
- El Modelo de Flujos de datos
- Características como Restricciones
- Consultas sobre Flujos de datos
- Modelo general para un algoritmo de Data Streaming
- Ventanas de tiempo
- Enfoques Computacionales
- Aplicaciones
- Capítulo 2 : Apache Spark
- Introducción
- ¿Qué es Apache Spark?
- Componentes de Spark
- Arquitectura
- Modelo de procesamiento en paralelo: RDDs
- Funciones sobre RDD: Transformaciones y Acciones
- Transformaciones definidas en la API
- Acciones definidas en la API
- Evaluación lazy
- Persistencia y administración de memoria
- Tolerancia a Fallos
- Anatomía de una aplicación en Spark
- DAG
- Spark Streaming
- Arquitectura y Abstracción sobre Spark
- API DStream
- Transformaciones
- Operaciones Output
- Capítulo 3 : Clustering
- Data Stream Clustering
- BIRCH
- Clustering Feature (CF)
- CF Tree
- Algoritmo BIRCH
- Problemas con CF Tree
- ClusTree
- ClusTree: Micro Clusters e inserciones Anytime
- Definición de ClusTree
- Método para mantener actualizado los clusters
- Manejo de flujos muy rápidos: aceleración a través de la agregación
- Generación de Macro-Clusters
- CluStream
- Micro-clusters
- Pyramidal Time Frame
- Online Clustering con CluStream
- Offline Clustering con Clustream
- DenStream
- Core-micro-cluster
- Metodología de procesamiento
- Fase Online: Micro-clusters
- Fase Offline: Generación de resultados
- Capítulo 4 : D3CAS, Nuevo algoritmo para Streaming Clustering
- Análisis y Motivación
- Diseño
- Ventana de Tiempo
- Metodología Online-offline
- Online-offline sobre la arquitectura distribuida
- Online
- Formato de entrada
- Micro Clusters
- Modelo Micro-cluster
- Generación
- Offline
- Recolección
- Agrupación basa en densidad
- Actualización temporal
- Modelo de los resultados
- Implementación en Apache Spark Streaming
- Cuadro Comparativo
- Pseudo código D3CAS
- Capítulo 5 : Evaluación y comparación
- Conceptos para la validez de agrupaciones
- Silhouette
- Definición de Silhouette
- Evaluaciones y comparaciones
- Detección dinámica
- Comparación de resultados
- Comparación con clusters con formas arbitrarias (no-esféricos)
- Reducción del Flujo de datos
- Conclusión
- Trabajos Futuros
- Referencias bibliográficas