Tesis - Maestría en Sistemas de Información mención en Data Science

Entérate cómo entregar tus trabajos de titulación

Permanent URI for this collection

https://repositorio.puce.edu.ec/handle/123456789/545

Browse

0-9ABCDEFGHIJKLMNOPQRSTUVWXYZ

Now showing 1 - 8 of 8

Open Access
Análisis comparativo de algoritmos de Machine Learning aplicados en la gestión de riesgos cuantitativos en proyectos predictivos y adaptativos
(PUCE - Quito, 2023) Osejo Domínguez, Francisco Miguel; Espinosa Viteri, Luis Oswaldo
El presente trabajo tiene como fin, realizar el análisis comparativo de la aplicación de algoritmos de Machine Learning en la gestión de riesgos cuantitativos en proyectos predictivos y adaptativos. Los algoritmos seleccionados para el desarrollo de los modelos fueron: Simulación de Monte Carlo aplicando Distribución Triangular y Beta – Pert, Regresión Lineal Simple, Regresión Lineal Múltiple y Arboles de Decisión. Se utilizó la metodología CRISP-DM para sistematizar la información y el flujo de actividades para el desarrollo y posterior evaluación de los modelos analizados. Los modelos se desarrollaron con Python, los datasets seleccionados son relacionados a cronograma y presupuesto de la automatización del sistema BAS y seguridad electrónica de un proyecto del sector de la construcción. Se detalla los análisis e interpretación de los resultados y coeficientes obtenidos en el desarrollo de cada uno de los algoritmos aplicados. Se obtiene un análisis comparativo de la aplicación de los algoritmos seleccionados, modelos y resultados obtenidos, así como las conclusiones y recomendaciones pertinentes.
Open Access
Análisis exploratorio de datos e identificación de agentes que influyen en la desnutrición crónica de niños menores a cinco años del Ecuador mediante la aplicación de técnicas de ciencia de datos
(PUCE - Quito, 2023) Yánez Carrera, Catherine Eleana; Montero Bermúdez, Eduardo José
El presente estudio permitió determinar los factores más relevantes que influyen en la desnutrición crónica infantil en ecuatorianos menores de 5 años, para este propósito se usó la base de datos abierta obtenida de la Encuesta Nacional de Salud y Nutrición realizada por el Instituto Nacional de Estadísticas y Censos en el año 2018, donde constan 20.356 observaciones de niños menores de 5 años y el 28,73% pertenecen a niños con DCI. Después de un análisis exploratorio de datos se consiguió un total de 101 variables disponibles, de las cuales se seleccionó de forma automática diez de ellas, haciendo uso de la librería featurewiz. Con este nuevo grupo de variables se creó un modelo de Regresión Logística y un Random Forest, al medir el rendimiento de los modelos con la métrica accuracy, ambos obtuvieron más del 68%, mientras que, al medir la capacidad de diferenciar entre valores positivos y negativos mediante la métrica AUC, ambos modelos alcanzaron más de 0,6. Sin embargo según los valores de la matriz de confusión, el modelo de Regresión Logística es mejor para predecir falsos positivos, es decir predice mejor los casos sin DCI, tiene una precisión del 45,65% y predice correctamente el 97,7% de casos de menores sin DCI , mientras que el modelo Random Forest es mejor para predecir verdaderos positivos, es decir que predice mejor los casos con DCI, adicionalmente tiene una precisión de 68,2% y predice de forma correcta el 22,18% de casos de menores con DCI, bajo este criterio el modelo Random Forest es el modelo seleccionado que mejor explica la desnutrición crónica infantil. Las variables más importantes para construir los modelos fueron: segunda dosis de la vacuna contra el Neumococo: no, área donde habita el menor: rural, nivel de instrucción de la madre: Educación Básica, etnia del menor: indígena, material del techo de la vivienda del menor: palma/ paja/ hoja, baño de la vivienda del menor: no tiene, fuente del agua que bebe el menor: embotellada /envasada, material del piso de la vivienda del menor: tierra. Para conocer similitudes entre las categorías de algunas variables se realizó el análisis de correspondencia, para esto se dividió la data en observaciones con DCI = 1 y DCI = 0, entre las similitudes más relevantes están: “Nivel de instrucción de la madre: Educación Básica” con “Área donde habita el menor: rural”, “Etnia del menor: indígena” con “Baño de la vivienda del menor: no tiene”, “Baño de la vivienda del menor: tiene” con “Etnia del menor: diferente a indígena”, “Área donde habita el menor: urbana” con “Instrucción de la madre: diferente a Educación Básica ” las categorías que no tienen ninguna similitud son: “Material de la vivienda del menor: palma /paja /hoja” y “Material del piso de la vivienda: tierra”.
Open Access
Análisis, diseño e implementación de una propuesta de modelo basado en machine learning para predecir los precios de las viviendas en un sector de la ciudad de Quito
(PUCE - Quito, 2023) Recuenco Canchala, Peter Vicente; Pincay Nieves, Jhonny Vladimir
La valoración catastral de las viviendas juega un papel crucial en la recaudación de impuestos y de la planificación urbana. En este contexto, esta investigación se centra en una propuesta de mejorar la precisión y eficiencia de los procesos de valoración catastral en la ciudad de Quito mediante la aplicación de análisis de datos y técnicas de aprendizaje automático, específicamente con modelos de regresión.El estudio aborda los retos inherentes a la revalorización y actualización de la base catastra, donde la agilidad y eficiencia son fundamentales para reflejar la valoración actual de los inmuebles y mejorar la recaudación del impuesto predial.Los objetivos específicos de esta investigación son analizar el impacto de las variables numéricas y categóricas en la valoración catastral, experimentar con diferentes modelos de regresión y seleccionar el que proporcione los mejores resultados en términos de precisión y facilidad de interpretación.Los resultados esperados podrán tener un impacto significativo en la valoración catastral, contribuyendo a optimizar la gestión tributaria y promoviendo la equidad en la distribución del impuesto predial. Además, sentará las bases para futuras investigaciones en el campo de la valoración catastral mediante técnicas de aprendizaje automático avanzados.
Open Access
Aplicación de inteligencia artificial mediante el uso de machine learning para el proceso de clasificación de datos asociados al Centro Médico CMC
(PUCE - Quito, 2023) Espín Espín, Deysi Magaly; Espinosa Viteri, Luis Oswaldo
La inteligencia artificial y el aprendizaje automático han revolucionado muchos campos, incluido el ámbito médico. El Centro Médico CMC ha reconocido el potencial de estas tecnologías y se ha permitido aplicar la inteligencia artificial en la información que posee para clasificar los datos asociados.El proceso de clasificación de datos en un Centro Médico puede ser complejo debido a la gran cantidad de información generada. El uso de machine learning permite que el sistema aprenda automáticamente a partir de los datos existentes y genere modelos predictivos. En el caso del Centro Médico CMC, se utilizan algoritmos de aprendizaje automático para analizar y clasificar los datos de manera precisa, eficiente y estos pueden contribuir significativamente a mejorar la atención prestada a los pacientes.El primer paso en el proceso está en la preparación de los datos. Esto implica recopilar y limpiar los datos, eliminando cualquier información redundante o ruidosa. A continuación, se seleccionan las características relevantes. Una vez que los datos están preparados, se utilizan el algoritmo árbol de decisión y regresión logística múltiple. Durante el entrenamiento, el modelo aprende a reconocer patrones y relaciones en los datos para realizar predicciones precisas. Después del entrenamiento, el modelo se evalúa utilizando datos de prueba para medir su rendimiento y precisión.Los beneficios de la aplicación de inteligencia artificial y machine learning en el proceso de clasificación de datos asociados al Centro Médico CMC son diversos. Permite una clasificación más rápida y precisa de los datos, lo que mejora la eficiencia y la toma de decisiones del centro médico.
Open Access
Aplicación de las ciencias de datos para identificar segmentos de clientes en una cadena de farmacias
(PUCE - Quito, 2023) Villacrés Venegas, Edgar Javier; Ortíz Navarrete, Miguel Dimitri
El trabajo de segmentación de clientes realizado implicó el uso de técnicas avanzadas de ciencias de datos para analizar e identificar tendencias de compra y comportamiento de los clientes. Se implementaron dos algoritmos de agrupamiento, k-means y DBSCAN, para segmentar los clientes basándonos en diferentes parámetros, lo cual resultó en una segmentación altamente precisa con más del 90% de certeza en ambos casos.El algoritmo k-means fue particularmente efectivo, logrando una precisión del 95.2% y permitiendo identificar los productos más vendidos en 2022. Por otro lado, el algoritmo DBSCAN, aunque generó un número considerablemente mayor de clusters (8080), permitió identificar a los 10 clientes que más compraron, lo que es crucial para entender sus tendencias de compra y preferencias locales.El análisis también implicó la eliminación de ruido en los datos, lo que mejoró la calidad de los resultados obtenidos. Posteriormente, se utilizó el método silhouette para evaluar la eficacia de ambos algoritmos, obteniendo un valor muy cercano a 1, indicando una segmentación adecuada.Además, se utilizó la metodología CRISP-DM para estructurar el proceso de análisis, lo que facilitó la identificación precisa de los distintos segmentos de clientes y sus características únicas. El análisis final reveló insights valiosos sobre los productos que podrían beneficiarse de estrategias promocionales adicionales, así como información sobre las tendencias de compra de los clientes más importantes.En definitiva, el trabajo realizado no solo logró segmentar a los clientes de manera efectiva, sino que también proporcionó información valiosa sobre las tendencias de compra, lo que permitirá a la empresa focalizar sus esfuerzos en estrategias que potencien su crecimiento económico.
Open Access
Aplicación de las ciencias de datos para segmentación de estudiantes en una IES
(PUCE - Quito, 2025) Caiza Iza, Pablo Giovanny; Ortíz Navarrete, Miguel Dimitri
En este estudio de segmentación de estudiantes para una Institución de Educación Superior se utilizó técnicas avanzadas de ciencia de datos para determinar patrones en la información de matrículas de los estudiantes de los últimos 5 años, se utilizaron algoritmos de agrupación como K-Means, K-Modes, K-Prototypes, DBSCAN y un algoritmo Hibrido Neuronal Autoencoder + Kmodes para determinar cuál es el mejor modelo para definir patrones en el contexto educativo, el algoritmo K-Prototypes fue el mejor modelo seleccionado para las variables académicas y demográficas que se utilizaron con un rendimiento del 60% evaluado con el coeficiente de silueta y la distancia de hamming. Se utilizó la metodología CRISPDM para guiar el proceso de ciencia de datos, sus fases permitieron el análisis de toda la data y permitió encontrar segmentos representativos dentro de la información, del modelo elegido se identificaron insights muy valiosos que se presentó en el análisis de resultados y que permitió desarrollar e implementación de estrategias educativas derivadas del análisis de las variables involucradas, lo que representó a la institución una oportunidad de mejora y personalización el servicio educativo.
Open Access
Determinar el mejor algoritmo de ciencia de datos para una planificación académica automatizada para las IES del Ecuador
(PUCE - Quito, 2023) Hernández Toazo, Héctor Giovanny; Pincay Nieves, Jhonny Vladimir
Después de la pandemia las instituciones de educación superior apoyados por los órganos de control del Ecuador, han adoptado diferentes modelos y componentes de enseñanza denominados Sincrónico donde el estudiante a través de la tecnología puede unirse a las clases virtuales en tiempo real desde cualquier parte del mundo; Asincrónico, cuando el estudiante a través de una plataforma LMS (Sistema de Gestión de Aprendizaje), puede estudiar a cualquier hora con el material disponible en el sistema; y el último componente de aprendizaje es el Presencial, que permite que el alumno vaya a una interacción directa con el profesor.Con el avance de la tecnología, cada momento se genera volúmenes de datos de forma digital, y que mejor, utilizar la técnicas y algoritmos aprendidos en esta maestría de ciencia de datos, para aplicar en las diferentes etapas que con lleva la planificación académica.En el proceso de este trabajo se realizará entrevistas a los encargados de la planificación institucional y académica, con el fin de entender los pasos y metodologías que utilizan en la construcción de esta tarea que deben hacerlo a inicios de cada periodo académico, se modelara las tablas necesarias para que la información pueda ser tabulada e importada a las herramientas de Python.Una vez que se termine de modelar y entender, se llevará a Jupyter Notebook el conjunto de datos, para a través de modelos y técnicas de minería de datos pronosticar la oferta distributivo y horario académico.
Open Access
Estudio comparativo de la precisión de algoritmos de aprendizaje automático, regresión logística, máquinas de soporte y clasificador bayesiano, basado en la implementación de modelo predictivos en función de la mortalidad en accidentes en Ecuador
(PUCE - Quito, 2023) Salgado Escobar, Stalin Sebastián; Mora Londoño, Edison Vicente
El estudio actual se enfoca en un estudio comparativo de tres modelos predictivos que permita establecer el más preciso en el escenario planteado, construidos mediante el uso de técnicas de minería de datos, basado en el estudio de la mortalidad en accidentes de tráfico en Ecuador.El país se enfrenta una tasa de mortalidad en accidentes de tráfico muy alta, transformándose en uno de los mayores problemas dentro del país y reducir es uno de los objetivos prioritarios para la agencia nacional de tránsito del país, dicho estudio se justifica en función de la necesidad de desarrollar herramientas más efectivas para reducir la tasa de mortalidad en accidentes de tránsito, los accidentes de tráfico son una causa importante de mortalidad, y es necesario adoptar nuevas estrategias para abordar este problema de manera más efectiva. El uso de técnicas de minería de datos y modelos predictivos puede ser una forma efectiva de analizar y predecir la mortalidad en accidentes de tráfico.Varios de los ítems identificados en los accidentes de tráfico en el Ecuador se basan en detalles como infraestructura vial deficiente, falta de cultura vial, falta de educación vial, pésima señalización en algunos escenarios. Estos factores aumentan el riesgo de accidentes de tránsito, y por consiguiente el riesgo de pérdidas humanas.El objetivo principal de este estudio es desarrollar un modelo predictivo que permita predecir la mortalidad en accidentes de tránsito en Ecuador mediante el uso de técnicas de minería de datos y modelos predictivos, donde por medio de recopilar los datos históricos, selección de variables relevantes, implementación de técnicas de aprendizaje automático supervisado y evaluar la capacidad predictiva del modelo propuesto podamos entregar una herramienta que permita tomar decisiones más informadas y efectivas en la prevención de accidentes de tráfico y la reducción de la mortalidad.Los datos históricos de accidentes de tráfico en Ecuador se recopilarán de registro de accidentes publicado por agencia nacional de tránsito (ANT), entre los años 2017 y 2022.

Browse

Browsing Tesis - Maestría en Sistemas de Información mención en Data Science by Subject "Algoritmos"

Results Per Page

Sort Options