Análisis de datos educativos aplicado en el estudio de la incidencia de factores socioeconómicos en el rendimiento escolar
Autor Principal: | |
---|---|
Otros autores o Colaboradores: | |
Formato: | Tesis |
Lengua: | español |
Datos de publicación: |
2023
|
Temas: | |
Acceso en línea: | http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2622 Consultar en el Cátalogo |
Descripción Física: | 1 archivo (10,3 MB) : il. col. |
Tabla de Contenidos:
- 1. Introducción
- 1.1. Motivación
- 1.1.1. El problema del rendimiento escolar
- 1.1.2. Análisis de datos educativos
- 1.1.3. Aprendizaje Automático, Minería de Datos
- 1.2. Objetivos
- 1.3. Alcance
- 1.4. Metodología
- 1.4.1. Tipo de investigación
- 1.4.2. Ciclo de vida de los modelos de Aprendizaje Automático
- 1.4.3. Conjuntos de datos
- 1.4.4. Niveles de análisis de datos
- 1.4.5. Consideraciones éticas
- 1.5. Contribuciones
- 1.6. Publicaciones
- 1.7. Organización de la tesis
- 2. Marco teórico
- 2.1. Minería de datos educativos
- 2.1.1. Campos de aplicación
- 2.1.2. Objetivos generales de la minería de datos educativos
- 2.1.3. Tipos de datos usados con frecuencia en el contexto escolar
- 2.2. Delimitación del término rendimiento académico
- 2.3. Factores de riesgo del rendimiento
- 2.4. Abandono y deserción escolar
- 2.5. Aprendizaje automático
- 2.5.1. Parámetros e hiperparámetros generales
- 2.5.2. Modelos supervisados
- 2.5.2.1. Máquinas de soporte vectorial (SVM)
- 2.5.2.2. Análisis discriminante lineal
- 2.5.2.3. Método de Bayes
- 2.5.2.4. Vecino más cercano, KNN
- 2.5.2.5. Árboles de decisión
- 2.5.2.6. Regresión lineal
- 2.5.2.7. Regresión logística
- 2.5.2.8. Aprendizaje en conjunto
- 2.5.2.8.1. ADA Boost
- 2.5.2.8.2. Gradient Boosting
- 2.5.2.8.3. XG Boost
- 2.5.2.8.4. XG Boost Random Forest
- 2.5.2.8.5. CatBoost
- 2.5.2.8.6. Random Forests
- 2.5.2.9. Redes neuronales
- 2.5.2.10. Descenso de gradiente estocástico, SGD
- 2.5.2.11. Métricas de evaluación de modelos supervisados
- 2.5.2.11.1. Matriz de confusión
- 2.5.2.11.2. Precisión
- 2.5.2.11.3. Exactitud (Accuracy)3
- 2.5.2.11.4. Recuerdo (Recall)
- 2.5.2.11.5. F1 Score
- 2.5.2.11.6. Especificidad
- 2.5.2.11.7. Curva ROC
- 2.5.2.11.8. Error cuadrático medio, MSE
- 2.5.2.11.9. Error cuadrático medio de la raíz, RMSE
- 2.5.2.11.10. Error absoluto medio, MAE
- 2.5.2.11.11. R cuadrado, R2
- 2.5.2.11.12. N Error cuadrático medio de la raíz, NRMSE
- 2.5.3. Modelos no supervisados
- 2.5.3.1. Patrones frecuentes, FP-Growth
- 2.5.3.2. K-Means
- 2.5.3.3. Clúster jerárquico
- 2.5.3.4. Reglas de asociación
- 2.5.3.5. Análisis de componentes principales
- 3. Desarrollo
- 3.1. Fase 1. Comprensión del aprovechamiento escolar
- 3.1.1. Sobre las escuelas y el rendimiento académico
- 3.1.2. Sobre los objetivos escolares
- 3.1.3. Sobre la situación actual
- 3.1.4. Sobre los objetivos de análisis de datos
- 3.1.5. Sobre planificación del modelado de datos
- 3.2. Fase 2. Comprensión de los datos
- 3.2.1. Recopilación inicial de datos
- 3.2.2. Descripción del conjunto de datos
- 3.2.3. Exploración de datos
- 2.3.3.1. Con base en la cantidad de alumnos
- 2.3.3.2. Con base en los registros de notas de cada materia
- 2.3.3.3. Correlaciones
- 2.3.3.4. Ganancia de Información e Información Mutua
- 2.3.3.5. Análisis confirmatorio
- 3.3. Fase 3. Preparación de los datos
- 3.3.1. Selección de los datos
- 3.3.2. Limpieza de los datos
- 3.3.3. Construcción de nuevos datos
- 3.3.4. Aumento de datos
- 3.3.5. Reducción de la dimensionalidad
- 3.3.6. Formato de datos
- 3.4. Fase 4. Modelado
- 3.4.1. Generalidades
- 3.4.2. Parámetros e hiperparámetros
- 3.4.3. Aprendizaje no supervisado
- 3.4.4. Aprendizaje supervisado
- 3.4.4.1. Support Vector Machine
- 3.4.4.2. Análisis discriminante lineal, LDA
- 2.4.4.3. Método de Bayes
- 3.4.4.4. KNN
- 3.4.4.5. Árbol de decisión, C4.5
- 2.4.4.6. Regresión lineal
- 2.4.4.7. Regresión Logística
- 2.4.4.8. Métodos de aprendizaje en conjunto o ensamblados
- 2.4.4.9. Redes neuronales
- 2.4.4.10. Descenso del gradiente estocástico, SGD
- 3.5. Fase 5. Evaluación
- 3.5.1. Modelos de clasificación considerando notas intermedias
- 3.5.2. Modelos de clasificación sin considerar notas intermedias
- 3.5.3. Modelos de regresión sin considerar notas intermedias
- 3.5.4. Modelos de clasificación con PCA, Smote ponderado y sin considerar notas intermedias
- 3.6. Fase 6. Despliegue
- 4. Resultados
- 5. Conclusiones, limitaciones y trabajos futuros
- 5.1. Respecto del objetivo de reconocer las aplicaciones de análisis de datos en los problemas del contexto educativo escolar
- 5.2. Respecto del objetivo de preparar los datos de acuerdo con la dimensionalidad a un número efectivo de características
- 5.3. Respecto del objetivo de estudiar comparativamente la idoneidad de los algoritmos de minería de datos
- 5.4. Respecto del objetivo de establecer parámetros e hiperparámetros que pueden ser apropiados a los datos y los modelos
- 5.5. Respecto del objetivo de interpretar los resultados del conocimiento descubierto y su eficiencia según métricas pertinentes a los modelos
- 5.6. Limitaciones y trabajos futuros
- 6. Referencias