Análisis de datos educativos aplicado en el estudio de la incidencia de factores socioeconómicos en el rendimiento escolar

Detalles Bibliográficos
Autor Principal: Pincay Ponce, Jorge Iván
Otros autores o Colaboradores: De Giusti, Armando Eduardo (Director/a)
Formato: Tesis
Lengua:español
Datos de publicación: 2023
Temas:
Acceso en línea:http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2622
Consultar en el Cátalogo
Descripción Física:1 archivo (10,3 MB) : il. col.
Tabla de Contenidos:
  • 1. Introducción
  • 1.1. Motivación
  • 1.1.1. El problema del rendimiento escolar
  • 1.1.2. Análisis de datos educativos
  • 1.1.3. Aprendizaje Automático, Minería de Datos
  • 1.2. Objetivos
  • 1.3. Alcance
  • 1.4. Metodología
  • 1.4.1. Tipo de investigación
  • 1.4.2. Ciclo de vida de los modelos de Aprendizaje Automático
  • 1.4.3. Conjuntos de datos
  • 1.4.4. Niveles de análisis de datos
  • 1.4.5. Consideraciones éticas
  • 1.5. Contribuciones
  • 1.6. Publicaciones
  • 1.7. Organización de la tesis
  • 2. Marco teórico
  • 2.1. Minería de datos educativos
  • 2.1.1. Campos de aplicación
  • 2.1.2. Objetivos generales de la minería de datos educativos
  • 2.1.3. Tipos de datos usados con frecuencia en el contexto escolar
  • 2.2. Delimitación del término rendimiento académico
  • 2.3. Factores de riesgo del rendimiento
  • 2.4. Abandono y deserción escolar
  • 2.5. Aprendizaje automático
  • 2.5.1. Parámetros e hiperparámetros generales
  • 2.5.2. Modelos supervisados
  • 2.5.2.1. Máquinas de soporte vectorial (SVM)
  • 2.5.2.2. Análisis discriminante lineal
  • 2.5.2.3. Método de Bayes
  • 2.5.2.4. Vecino más cercano, KNN
  • 2.5.2.5. Árboles de decisión
  • 2.5.2.6. Regresión lineal
  • 2.5.2.7. Regresión logística
  • 2.5.2.8. Aprendizaje en conjunto
  • 2.5.2.8.1. ADA Boost
  • 2.5.2.8.2. Gradient Boosting
  • 2.5.2.8.3. XG Boost
  • 2.5.2.8.4. XG Boost Random Forest
  • 2.5.2.8.5. CatBoost
  • 2.5.2.8.6. Random Forests
  • 2.5.2.9. Redes neuronales
  • 2.5.2.10. Descenso de gradiente estocástico, SGD
  • 2.5.2.11. Métricas de evaluación de modelos supervisados
  • 2.5.2.11.1. Matriz de confusión
  • 2.5.2.11.2. Precisión
  • 2.5.2.11.3. Exactitud (Accuracy)3
  • 2.5.2.11.4. Recuerdo (Recall)
  • 2.5.2.11.5. F1 Score
  • 2.5.2.11.6. Especificidad
  • 2.5.2.11.7. Curva ROC
  • 2.5.2.11.8. Error cuadrático medio, MSE
  • 2.5.2.11.9. Error cuadrático medio de la raíz, RMSE
  • 2.5.2.11.10. Error absoluto medio, MAE
  • 2.5.2.11.11. R cuadrado, R2
  • 2.5.2.11.12. N Error cuadrático medio de la raíz, NRMSE
  • 2.5.3. Modelos no supervisados
  • 2.5.3.1. Patrones frecuentes, FP-Growth
  • 2.5.3.2. K-Means
  • 2.5.3.3. Clúster jerárquico
  • 2.5.3.4. Reglas de asociación
  • 2.5.3.5. Análisis de componentes principales
  • 3. Desarrollo
  • 3.1. Fase 1. Comprensión del aprovechamiento escolar
  • 3.1.1. Sobre las escuelas y el rendimiento académico
  • 3.1.2. Sobre los objetivos escolares
  • 3.1.3. Sobre la situación actual
  • 3.1.4. Sobre los objetivos de análisis de datos
  • 3.1.5. Sobre planificación del modelado de datos
  • 3.2. Fase 2. Comprensión de los datos
  • 3.2.1. Recopilación inicial de datos
  • 3.2.2. Descripción del conjunto de datos
  • 3.2.3. Exploración de datos
  • 2.3.3.1. Con base en la cantidad de alumnos
  • 2.3.3.2. Con base en los registros de notas de cada materia
  • 2.3.3.3. Correlaciones
  • 2.3.3.4. Ganancia de Información e Información Mutua
  • 2.3.3.5. Análisis confirmatorio
  • 3.3. Fase 3. Preparación de los datos
  • 3.3.1. Selección de los datos
  • 3.3.2. Limpieza de los datos
  • 3.3.3. Construcción de nuevos datos
  • 3.3.4. Aumento de datos
  • 3.3.5. Reducción de la dimensionalidad
  • 3.3.6. Formato de datos
  • 3.4. Fase 4. Modelado
  • 3.4.1. Generalidades
  • 3.4.2. Parámetros e hiperparámetros
  • 3.4.3. Aprendizaje no supervisado
  • 3.4.4. Aprendizaje supervisado
  • 3.4.4.1. Support Vector Machine
  • 3.4.4.2. Análisis discriminante lineal, LDA
  • 2.4.4.3. Método de Bayes
  • 3.4.4.4. KNN
  • 3.4.4.5. Árbol de decisión, C4.5
  • 2.4.4.6. Regresión lineal
  • 2.4.4.7. Regresión Logística
  • 2.4.4.8. Métodos de aprendizaje en conjunto o ensamblados
  • 2.4.4.9. Redes neuronales
  • 2.4.4.10. Descenso del gradiente estocástico, SGD
  • 3.5. Fase 5. Evaluación
  • 3.5.1. Modelos de clasificación considerando notas intermedias
  • 3.5.2. Modelos de clasificación sin considerar notas intermedias
  • 3.5.3. Modelos de regresión sin considerar notas intermedias
  • 3.5.4. Modelos de clasificación con PCA, Smote ponderado y sin considerar notas intermedias
  • 3.6. Fase 6. Despliegue
  • 4. Resultados
  • 5. Conclusiones, limitaciones y trabajos futuros
  • 5.1. Respecto del objetivo de reconocer las aplicaciones de análisis de datos en los problemas del contexto educativo escolar
  • 5.2. Respecto del objetivo de preparar los datos de acuerdo con la dimensionalidad a un número efectivo de características
  • 5.3. Respecto del objetivo de estudiar comparativamente la idoneidad de los algoritmos de minería de datos
  • 5.4. Respecto del objetivo de establecer parámetros e hiperparámetros que pueden ser apropiados a los datos y los modelos
  • 5.5. Respecto del objetivo de interpretar los resultados del conocimiento descubierto y su eficiencia según métricas pertinentes a los modelos
  • 5.6. Limitaciones y trabajos futuros
  • 6. Referencias