Tesis - Maestría en Sistemas de Información mención en Data Science

Código QR

Entérate cómo entregar tus trabajos de titulación

Browse

Recent Submissions

Now showing 1 - 20 of 68
  • ItemOpen Access
    Aplicación de técnicas de machine learning para predecir la desnutrición infantil en Ecuador
    (PUCE - Quito, 2024) Puente Tiscama, Cleber Damián; Montero Bermúdez, Eduardo José
    El presente trabajo de titulación establece un modelo optimizado de machine learning que permite predecir la desnutrición crónica infantil con un nivel de accuracy lo suficientemente alto como para tomar decisiones. Se utiliza la base de datos de la Encuesta Nacional de Salud y Nutrición (ENSANUT). El proyecto realizado tiene como objetivo principal implementar un modelo de aprendizaje supervisado que permita predecir la desnutrición crónica infantil en el Ecuador, este modelo tendrá muy buenas métricas de performance e.g.roc auc superior a 0.8, acurracy por encima del 80%. Como resultado se obtendrá un modelo computacional de clasificación binaria de machine learning en lenguaje de programación Python con un nivel alto de accuracy que permita caracterizar y clasificar a los niños con desnutrición crónica infantil. Se recomienda proveer una estrategia de implementación y uso del modelo, así como un análisis del grado de influencia de las variables.
  • ItemOpen Access
    Desarrollo de un modelo de clasificación para la detección de fraudes en transacciones de tarjetas de crédito mediante el uso de técnicas de deep learning
    (PUCE - Quito, 2024) Lincango Tite, Carlos Andrés
    El presente trabajo de titulación es el fruto del conocimiento adquirido durante la Maestría de Sistemas de Información con mención en Data Science aplicados a una problemática específica: la utilización de técnicas de aprendizaje profundo para la detección de anomalías en transacciones generadas con tarjetas de crédito.De acuerdo con información de la Superintendencia de Bancos y Aval Buró, en 2023 en Ecuador existieron 4,2 millones de tarjetas de crédito activas, con las cuales, más de 2 millones de tarjetahabientes realizaron 105 millones de consumos por un monto de USD 21.891 millones. De esta manera, el número de consumos y el monto transaccionado a través de tarjetas de crédito creció frente a 2022 en 11,7% y 17,4%, respectivamente (Asobanca, 2024).De Enero a Junio del 2023, 50.540 nuevos ecuatorianos accedieron por primera vez al sistema formal a través de una tarjeta de crédito. Ellos realizaron 192.999 operaciones. (Asobanca, 2023).El mercado global de pagos con tarjeta de crédito alcanzara para el año 2025 los $ 2 billones, pero también se espera una pérdida como consecuencia del fraude de hasta $ 200 millones. (Gestion, 2021).El tema expuesto en esta investigación es de vital importancia pues intenta desarrollar un modelo de clasificación a partir de aplicar técnicas de aprendizaje profundo que ayuden en la clasificación y la detección de fraudes y anomalías en transacciones ejecutadas con tarjetas de crédito.La pertinencia de desarrollar esta investigación aplicada es la entregar resultados a partir de la utilización de técnicas avanzadas y que dichos resultados puedan ser en aplicaciones de modelos de aprendizaje automático para la detección de anomalías en transacciones con tarjetas de crédito y en futuras investigaciones relacionadas con este tema.
  • ItemOpen Access
    Desarrollo de un algoritmo basado en redes neuronales para la identificación automática del melanoma mediante el análisis de imágenes
    (PUCE - Quito, 2025) León Alarcón, José Alberto; Escobar Terán, Charles Edisson
    El presente trabajo tiene como propósito la implementación y desarrollo de un algoritmo basado en redes neuronales convolucionales, buscando optimizar la eficiencia y precisión en la identificación del Melanoma. Este incluye la revisión exhaustiva de la literatura para informar sobre el estado actual del campo de estudio, la recopilación y preparación de un banco de datos utilizando algoritmos y técnicas como DullRazor y Unsharp Masking, el diseño e implementación de una arquitectura de CNN adaptada a la detección del Melanoma y la evaluación del modelo propuesto mediante métricas de evaluación.La evaluación del modelo demostró́ un funcionamiento superior en términos de clasificación de imágenes, obteniendo una exactitud del 97.77% en datos de prueba. Además, se reportaron métricas basadas en predicciones como: Precisión, exactitud, Recall, puntuación F1 las cuales obtuvieron valores altamente aceptables. Siendo así, este algoritmo de red neuronal convolucional resultó en una mejora significativa en la eficiencia y precisión del diagnóstico dermatológico.Este proyecto no solo aborda una problemática clave en el diagnóstico del melanoma, sino que también presenta una contribución significativa al área emergente de la ciencia de datos aplicada a la salud. El resultado de este trabajo propiciaría una base para futuras investigaciones y desarrollos en la intersección entre la ciencia de datos y la medicina.
  • ItemOpen Access
    Identificación automática de tweets de emergencia en la red social “X”: caso de estudio en Ecuador
    (PUCE - Quito, 2024) Franco Cantos, Jandry Hernaldo; Montero Bermúdez, Eduardo José
    Las redes sociales, en particular la plataforma X, representan mecanismos potencialmente valiosos para el reporte e identificación oportuna de situaciones de emergencia, gracias a la vasta cantidad de información generada continuamente por los usuarios. No obstante, la disponibilidad de corpus específicos relacionados con situaciones de emergencia es limitada, así como la automatización para la identificación de contenido textual pertinente. En este contexto, el presente estudio tiene como objetivo desarrollar un modelo de inteligencia artificial para la identificación automática de textos que abordan situaciones de emergencia, utilizando como base de aprendizaje el contenido generado por usuarios en Ecuador. El análisis y experimentación contempla una comprensión de la incidencia de las características lingüísticas específicas del país al momento de reportar situaciones de emergencia. Los resultados obtenidos de los experimentos muestran un desempeño satisfactorio en la identificación de textos sobre emergencias mediante el clasificador SVM y el clasificador LR, a su vez, los datos indican que las particularidades lingüísticas del español ecuatoriano tienen una incidencia poco significativa para identificar temas de emergencia, sugiriendo que el modelo desarrollado puede generalizarse eficazmente dentro del contexto ecuatoriano. En conclusión, el estudio confirma que es posible identificar textos relacionados con emergencias utilizando técnicas de procesamiento de lenguaje natural en el contexto específico de Ecuador, y que las características lingüísticas particulares del español ecuatoriano no representan una barrera significativa para la eficacia del modelo. Esta contribución puede ser relevante para mejorar los sistemas de alerta y respuesta ante emergencias, utilizando las redes sociales como una herramienta complementaria en la gestión de crisis.
  • ItemOpen Access
    Análisis de sentimientos sobre la percepción de seguridad para la ciudad de Cuenca durante el año 2023
    (PUCE - Quito, 2024) Figueroa Campoverde, David Sebastián; Espinosa Viteri, Luis Oswaldo
    El presente estudio tiene como objetivo principal realizar un análisis de sentimientos de la percepción de seguridad en la población de la ciudad de Cuenca durante el año 2023, con el propósito de evaluar la situación actual del cantón y formular posibles políticas de mejora para abordar la problemática actual. Para alcanzar este propósito, se han delineado objetivos específicos que incluyen la evaluación de la percepción de seguridad a través de la extracción de información de redes sociales X (Twitter) permitiendo contrastar estos datos con estadísticas oficiales sobre inseguridad generadas por Instituciones a nivel local y nacional, teniendo en cuenta que la finalidad de esta investigación es sugerir y proponer posibles medidas correctivas que permitan mitigar y abordar las principales problemáticas relacionadas a la inseguridad que ha afectado al país a nivel general.La metodología propuesta para esta investigación sigue una serie de procedimientos para la extracción, descripción, exploración, tratamiento y transformación de los datos obtenidos. Para la primera etapa se utilizó Apify, una herramienta esencial para la extracción y automatización de datos. Una vez que se contó con los datos necesarios para la descripción y exploración de los datos, se realizó el respectivo proceso de tratamiento y transformación, que abarca la depuración y eliminación de posibles datos duplicados, así como, publicaciones que no hagan referencia a la ciudad de Cuenca, Ecuador. Es importante mencionar que, durante la fase de análisis, se aplicaron técnicas para comprender la perspectiva de cada uno de los datos establecidos, es decir, se organiza y construye el sentimiento de cada dato extraído (tweet). Mediante un contraste, entre TextBlob y Pysentiment los resultados demuestran que existen tanto opiniones positivas como negativas, no obstante, el análisis demuestra una mayor presencia de opiniones neutrales. Sin embargo, a través de un análisis manual se puede determinar que más del 50% de la población cuencana tiene una opinión negativa sobre la seguridad. En conclusión, este estudio se presenta como un valioso recurso para comprender la percepción de seguridad de la población, brindando información clave para el diseño e implementación de políticas efectivas de mejora en la ciudadana. Además, las propuestas para investigaciones futuras ofrecen oportunidades para profundizar en el análisis de la delincuencia y la percepción de seguridad a nivel nacional.
  • ItemOpen Access
    Análisis predictivo del churn de clientes para una empresa proveedora del servicio de internet para hogares en el Ecuador
    (PUCE - Quito, 2024) Chuquer Erazo, William Hernán; Pincay Nieves, Jhonny Vladimir
    El presente estudio se enfoca en el desarrollo de un modelo predictivo para identificar el churn de clientes en una empresa proveedora del servicio de internet para hogares en el Ecuador. Utilizando la metodología CRISP-DM, en la fase de preparación de los datos se realizó un análisis exploratorio utilizando Python, lo que permitió identificar patrones preliminares en el comportamiento de los clientes. En las fases posteriores, se utilizaron herramientas como Alteryx, que facilitó la creación de flujos de trabajo para lograr un análisis exhaustivo de los datos de clientes, aplicando técnicas de limpieza, segmentación y parametrización para garantizar la calidad y relevancia de la información. Qlik Sense fue empleada para lograr una visualización clara y efectiva de los resultados. La técnica de WOE + IV fue crucial para la segmentación y parametrización de variables, mejorando la precisión predictiva.Se entrenaron y compararon varios modelos de machine learning, entre ellos, Regresión Logística, Árboles de Decisión y Random Forest, siendo este último el modelo con el mejor desempeño. Random Forest alcanzó una precisión del 99.5% para la predicción de cancelaciones administrativas y del 81% para cancelaciones voluntarias. Estos resultados proporcionan a la empresa herramientas sólidas para la implementación de estrategias de retención de clientes, permitiendo una intervención proactiva en la gestión de riesgos y mejorando la satisfacción del cliente. El estudio también destaca la importancia de actualizar periódicamente los modelos para adaptarse a cambios en los patrones de comportamiento de los clientes.
  • ItemOpen Access
    Análisis predictivo de la demanda de especies valoradas en el consulado del Ecuador en Queens, Estados Unidos de América
    (PUCE - Quito, 2024) Chiza Monarco, Víctor Alfonso; Melgarejo Heredia, Rafael
    La optimización de la gestión del stock de especies valoradas y la eficiente asignación de este tipo de recursos en el Consulado del Ecuador en Queens son fundamentales para garantizar un servicio consular ágil y efectivo a los ciudadanos ecuatorianos en Estados Unidos. Dada la variedad de trámites consulares y la necesidad de contar con las especies valoradas adecuadas para cada uno, es muy importante comprender y prever la demanda de estos recursos de manera precisa.El análisis y la predicción de la demanda de especies valoradas permitirán al Consulado anticipar las necesidades futuras de trámites consulares y planificar apropiadamente el abastecimiento de especies valoradas en su stock. Esto no solo mejorará la eficiencia en la prestación de servicios consulares, sino que también evitará la escasez o el exceso de estos insumos, optimizando así el uso de recursos financieros y logísticos.Al implementar este proyecto, se espera mejorar significativamente la calidad y la eficiencia de los servicios consulares ofrecidos por el Consulado del Ecuador en Queens, lo que contribuirá a fortalecer la relación entre la comunidad ecuatoriana residente en Estados Unidos y las autoridades consulares. Además, esta iniciativa ayudará a promover una gestión más transparente y eficaz de los recursos públicos asignados a los servicios consulares.
  • ItemOpen Access
    Análisis de sentimientos utilizando la red social “X” Twitter para medir el nivel de aceptación del nuevo presidente del Ecuador, Daniel Noboa (noviembre 2023 - abril 2024)
    (PUCE - Quito, 2024) Cedeño Menéndez, Roly Steeven; Montero Bermúdez, Eduardo José
    El presente trabajo se centra en analizar los sentimientos expresados en la red social “X” Twitter con respecto al presidente Daniel Noboa, con el objetivo de determinar el nivel de aceptación por parte de la población ecuatoriana durante el período comprendido desde el 23 de noviembre de 2023 hasta el 30 de abril de 2024. Para ello, se identificaron y recopilaron 3177 tweets relevantes utilizando técnicas de web scraping, aplicando filtros específicos para excluir tweets con imágenes, videos y retweets.La cuantificación y categorización de las respuestas hacia el presidente revelaron una predominancia de tweets neutrales del 79.7%, indicando una percepción mayormente neutral. Sin embargo, se observó una notable cantidad de críticas, representadas por el 16.6% de los tweets negativos, y relativamente pocos elogios, con solo el 3.7% de los tweets siendo positivos.Los modelos de análisis de sentimientos utilizados incluyeron Naive Bayes, Support Vector Machine (SVM), Logistic Regression, Decision Tree, Random Forest y XGBoost. Cada modelo fue evaluado utilizando métricas como exactitud, precisión, recall y F1-Score, tanto en los datos de entrenamiento como en los de prueba.Los resultados mostraron variaciones significativas en el rendimiento de los modelos, destacándose que el modelo de Naive Bayes presentó un buen equilibrio en las métricas de exactitud y F1-Score, siendo el más adecuado para los datos desbalanceados. Las conclusiones sugieren que, aunque se obtuvieron resultados satisfactorios, es recomendable extender el período de estudio, incorporar otras redes sociales, incluir retweets y respuestas, y explorar modelos de análisis más avanzados para mejorar la precisión.
  • ItemOpen Access
    Segmentación de donantes potenciales de una fundación mediante algoritmos de aprendizaje automático
    (PUCE - Quito, 2024) Carlozama Villota, Juan Carlos; Melgarejo Heredia, Rafael
    La presente tesis tiene como objetivo desarrollar un modelo de segmentación de donantes potenciales para una fundación, utilizando algoritmos de aprendizaje automático.Este proyecto busca identificar variables clave para la segmentación basada en comportamientos y patrones de donación, recopilar datos relevantes sobre donantes, y evaluar la precisión y eficiencia del algoritmo implementado. La metodología utilizada se basa en el enfoque CRISPDM y se aplicarán técnicas de aprendizaje no supervisado.
  • ItemOpen Access
    Desarrollar un modelo predictivo de detección de ataques a herramientas de seguridad perimetral, de la COAC Jardín Azuayo
    (PUCE - Quito, 2024) Cando Jara, Romel Mauricio; Montero Bermúdez, Eduardo José
    En el panorama actual de la ciberseguridad, las amenazas han evolucionado considerablemente siendo mucho más complejas, con un mayor incremento e impacto, afectando tanto a organizaciones como a usuarios. Este incremento en los últimos años ha planteado un desafío significativo para las instituciones, que deben estar preparadas y emplear estrategias efectivas para mitigar estas amenazas.En este contexto, la institución financiera COAC Jardín Azuayo se enfrenta a la tarea crucial de analizar los logs generados por herramientas de seguridad de frontera, como firewalls. Estos dispositivos, producen grandes volúmenes de datos, cuya gestión y análisis se ven dificultados por la limitada capacidad de almacenamiento de los dispositivos actuales, los cuales no están diseñados para tal propósito.Existen regulaciones internas y externas que requieren la conservación de datos históricos, con la necesidad de garantizar la disponibilidad de logs, conforme a las políticas institucionales. Este proyecto busca contribuir a la implementación de medidas efectivas, optimizando el tiempo de análisis de datos mediante la aplicación de técnicas de machine learning.La adecuada preparación y explotación de estos datos permiten no solo la extracción de información clave, sino también el desarrollo de modelos predictivos y técnicas de aprendizaje automático, elementos fundamentales para fomentar la innovación en campos como la ciencia y la tecnología.Esta tesis presenta un análisis mediante el uso de algoritmo de regresión logística que permite realizar una predicción basada en la severidad de los ataques registrados en los logs de las herramientas de seguridad, se realizaron evaluaciones de los resultados para estimar la efectividad del modelo. Los resultados demostraron que el modelo clasificó correctamente los ataques en diferentes niveles de severidad, como se reflejó en las métricas de rendimiento de cada clase. Esto indicó que el agrupamiento de comportamientos según la severidad fue adecuado.
  • ItemOpen Access
    Predicción de ventas en tiendas de retail farmaceútico ecuatoriano mediante modelos agrupados de aprendizaje automático y series temporales
    (PUCE - Quito, 2024) Becerra Ortiz, Alexander David; Ortíz Navarrete, Miguel Dimitri
    La industria del retail farmacéutico en Ecuador, al igual que en muchos otros países, enfrenta numerosos desafíos relacionados con la precisión de los pronósticos de ventas. Consultoras como IQVIA, en su reciente informe, señalan que la industria farmacéutica en América Latina podría experimentar un crecimiento significativo. Se proyectaba un aumento del 17.4% para 2022 y del 16.6% para 2023, utilizando dólares constantes como unidad de medida. Además, se explica que entre 2022 y 2026, la actividad en la región crecerá a una tasa anual compuesta del 15.2%. En Ecuador, se espera un crecimiento del 4.2% durante el mismo período. La consultora destaca también que el sector institucional tendrá un desempeño superior al retail, con proyecciones de crecimiento del 16.5% en el quinquenio 2022-2026 para el retail en farmacias. (Atance, 2022).En el entorno competitivo actual, donde la demanda puede ser volátil y está influenciada por múltiples factores internos y externos, las empresas de retail farmacéutico necesitan herramientas avanzadas que les permitan anticiparse a las necesidades del mercado. Estas herramientas no solo deben ser capaces de procesar grandes volúmenes de datos, sino también de identificar patrones complejos que no son evidentes mediante métodos tradicionales.Uno de los principales factores externos que condujo a la expansión de tiendas de retail farmacéutico en Ecuador fue la pandemia de COVID-19. Este evento resaltó la importancia de la disponibilidad de medicamentos, así como de artículos de desinfección y suministros de limpieza. En 2024, todavía existen pequeños focos de reinfecciones que contribuyen a la volatilidad del fenómeno, además de las enfermedades estacionales que dificultan la precisión de los modelos clásicos de pronósticos.El avance en técnicas de aprendizaje automático y modelos de series temporales ha abierto nuevas posibilidades para mejorar la precisión de los pronósticos de ventas. Entre estas técnicas, las redes neuronales LSTM (Long Short-Term Memory) destacan por su capacidad para gestionar dependencias a largo plazo en datos secuenciales, lo que las hace particularmente adecuadas para la predicción de ventas en entornos dinámicos y complejos como el retail farmacéutico.Adicionalmente, la agrupación de puntos de venta en clústers homogéneos mediante técnicas de clustering, como K-means, permite personalizar los modelos de predicción. Esta personalización puede ser esencial para considerar las características específicas de cada punto de venta, así como patrones históricos de ventas, mejorando la precisión en los pronósticos.Este proyecto propone desarrollar un modelo de predicción de ventas que combine técnicas de aprendizaje automático y series temporales, aplicadas a clústers de puntos de venta en una empresa de retail farmacéutico ecuatoriano. El objetivo es proporcionar un enfoque más preciso y personalizado que los métodos tradicionales, mejorando la toma de decisiones estratégicas.Los capítulos siguientes de este trabajo detallarán los antecedentes teóricos, la metodología propuesta, los resultados esperados y las conclusiones derivadas de la implementación y evaluación del modelo de predicción de ventas.
  • ItemOpen Access
    Desarrollo de un modelo de análisis de sentimientos enfocado en la encuesta de evaluación docente de una institución educativa superior
    (PUCE - Quito, 2025) Govea Sotomayor, Jaime Alejandro; Escobar Terán, Charles Edisson
    El presente trabajo de titulación aborda el desarrollo, evaluación y comparación de distintos modelos de análisis de sentimientos diseñados específicamente para procesar las respuestas abiertas en las encuestas de evaluación docente de una institución de educación superior. Los modelos desarrollados utilizaron los algoritmos de machine learning Naive Bayes y Random Forest con las técnicas de vectorización Bag of Words y Tf-Idf respectivamente. El tercer modelo se desarrolló utilizando la técnica de vectorización Word2Vec y una arquitectura de una red neuronal recurrente del tipo Long Short-Term Memory. Se aplicó la misma metodología para el entrenamiento de los tres modelos, se realizó un proceso de limpieza, tokenización y lematización de los datos. Luego, se llevó a cabo la vectorización de los datos preprocesados para poder aplicar los algoritmos de clasificación, entrenar los modelos y finalmente evaluarlos sobre un conjunto de datos de prueba. Este enfoque de procesamiento de lenguaje natural posibilita la transformación de datos cualitativos en métricas cuantificables, clasificando automáticamente las opiniones de los estudiantes en tres categorías principales: positivas, negativas y neutras. El objetivo principal de esta investigación es optimizar el proceso de evaluación docente, proporcionando a los coordinadores de carrera una herramienta que reduzca significativamente el tiempo dedicado al análisis de respuestas abiertas. Además, el modelo busca minimizar la subjetividad inherente a la interpretación manual de las evaluaciones, ofreciendo un método más sistemático y objetivo para la valoración del desempeño docente. Los resultados obtenidos demuestran la viabilidad y efectividad del uso de modelos de clasificación para procesar grandes volúmenes de respuestas textuales, proporcionando análisis consistentes y objetivos que facilitan la labor administrativa en la evaluación del personal docente.
  • ItemOpen Access
    Creación de segmentos de clientes, basados en datos de órdenes de un E-commerce
    (PUCE - Quito, 2025) Caraguay Ordoñez, Henry Fabricio; Montero Bermúdez, Eduardo José
    El comercio electrónico ha experimentado un crecimiento sostenido en los últimos años en Latinoamérica, y Ecuador no ha sido la excepción. Con una economía evolucionando a la digitalización, el país ha visto un aumento en la adopción de plataformas de comercio electrónico y soluciones de pago en línea. La facilidad de acceso a Internet, la proliferación de dispositivos móviles y el uso creciente de redes sociales como canales de marketing han impulsado este fenómeno. De acuerdo con datos recientes, se proyecta que el sector del e-commerce en Ecuador cierre el año 2024 con un crecimiento del 14%, reflejando un aumento significativo en la confianza de los consumidores en las compras digitales. En este contexto, la presente investigación se centra en el análisis de los clientes de una plataforma de comercio electrónico especializada principalmente en el sector de la comida. A diferencia de mercados más diversificados que incluyen tecnología y ropa, el segmento de alimentos presenta un interés particular debido a su volumen de transacciones y la frecuencia con la que los clientes realizan compras. Esta dinámica proporciona una gran cantidad de datos que pueden ser utilizados para optimizar estrategias de segmentación y personalización de la experiencia del usuario. Las grandes plataformas de e-commerce a nivel mundial, como Amazon y eBay, han demostrado la importancia del análisis de datos para potenciar sus estrategias de marketing y retención de clientes. Inspirándose en estas tendencias de analítica de datos, esta investigación busca aplicar herramientas de análisis de datos para identificar patrones de comportamiento de los consumidores ecuatorianos en el sector de la comida. El análisis de segmentación de clientes no solo permitirá una mejor comprensión del perfil de los consumidores, sino que también brindará información valiosa para diseñar estrategias de marketing más eficaces y dirigidas. Al identificar diferentes segmentos de clientes con características y necesidades específicas, las empresas podrán personalizar sus ofertas, mejorar la retención y aumentar la conversión de ventas.
  • ItemOpen Access
    Desarrollo de un dashboard para el análisis de publicaciones basadas en datos bioinformáticos de la biodiversidad ecuatoriana mediante minería de datos: identificación de brechas y oportunidades para la investigación
    (PUCE - Quito, 2025) Vásquez Terán, José Luis; Ortíz Navarrete, Miguel Dimitri
    Ecuador, reconocido como uno de los países megadiversos a nivel mundial, alberga una concentración excepcional de vida en relación a su tamaño. Esta megadiversidad, producto de su ubicación geográfica y la presencia de la Cordillera de los Andes, representa una de las colecciones más densas de conocimiento y formas de vida en el planeta. A pesar de su riqueza biológica, la biodiversidad ecuatoriana enfrenta amenazas significativas como la deforestación y la expansión de la frontera agrícola (Banco de Desarrollo de Ámerica Latina y el Caribe, 2024). (Herrera-Feijoo, 2024) reveló que, entre 2008 y 2016, la Amazonía ecuatoriana perdió 650,000 hectáreas de bosque virgen, una cifra que subraya la magnitud del problema en una de las regiones más biodiversas del mundo. La exploración y el análisis de la biodiversidad ecuatoriana han cobrado mayor relevancia en las últimas décadas, impulsados por los avances en las ciencias biológicas y de la información. El manejo de bases de datos a gran escala, conocido como big data, ha añadido un nuevo valor al estudio y aplicación del conocimiento generado a partir de los recursos biológicos y genéticos (Toulkeridis, y otros, 2020). En este contexto, los datos bioinformáticos emergen como un componente esencial para comprender, conservar y utilizar sosteniblemente la biodiversidad. Los datos bioinformáticos, entendidos como la información derivada del análisis computacional de datos biológicos, ofrecen una perspectiva invaluable sobre la composición genética, las interacciones ecológicas y los patrones evolutivos de las especies (Herrera-Feijoo, 2024). Estos datos incluyen secuencias de ADN, datos de expresión génica, información sobre proteínas, y metadatos asociados a especímenes biológicos.
  • ItemOpen Access
    Identificación de patrones de interacción en cursos MOOC para la predicción del rendimiento académico
    (PUCE - Quito, 2025) Toledo Illescas, María Belén; Roa Marín, Henry Nelson
    Los Cursos Masivos Abiertos en Línea (MOOCs) han transformado el acceso a la educación, ofreciendo oportunidades de aprendizaje flexible y a gran escala, sin embargo, enfrentan el desafío de altas tasas de deserción y baja finalización. Este proyecto titulado "Identificación de patrones de interacción en cursos MOOC para la predicción del rendimiento académico" tiene como objetivo desarrollar un modelo predictivo que permita anticipar el rendimiento académico de los estudiantes en MOOCs mediante el análisis de la interacción y participación de los usuarios. Se analizaron las interacciones más frecuentes durante las sesiones de estudio, identificando patrones de aprendizaje diferenciados entre los estudiantes que aprobaron y aquellos que no completaron el curso. A través de herramientas de minería de procesos para comprender sus comportamientos y se evaluaron tres modelos de clasificación: Regresión logística, Máquinas de Soporte Vectorial (SVM) y Árboles de decisión, los resultados demostraron que el modelo de árbol de decisión alcanzó el mejor desempeño (accuracy = 90.86%, F1-score = 90.93%), logrando un equilibrio óptimo entre precisión y sensibilidad, se identificó que los estudiantes con mayor participación en video-lecturas, actividades suplementarias y evaluaciones tienen mayores probabilidades de aprobar el curso, mientras que aquellos con interacciones limitadas o desorganizadas presentan un mayor riesgo de abandono. Se concluye que los modelos predictivos pueden ser herramientas clave para identificar a estudiantes en riesgo y permitir intervenciones tempranas. Como trabajo futuro, se propone la integración del modelo en entornos educativos reales para generar alertas tempranas y recomendaciones en tiempo real, permitiendo a los instructores identificar a estudiantes en riesgo y brindarles apoyo oportuno.
  • ItemOpen Access
    Modelo predictivo para analizar la sostenibilidad financiera de las carreras de una institución de educación superior
    (PUCE - Quito, 2025) Tatayo Chanaluisa, Jorge Armando; Ortíz Navarrete, Miguel Dimitri
    Este proyecto se desarrolló con el objetivo de crear un modelo predictivo que brinde la información necesaria para analizar la sostenibilidad financiera de las carreras de una institución de educación superior, la información obtenida por el modelo servirá de apoyo para que las autoridades puedan tomar decisiones estratégicas. En la búsqueda del mejor modelo que posea un alto porcentaje de exactitud en sus predicciones, se realizó pruebas con los algoritmos de Regresión Logística, Random Forest, Percepción Multicapa, si bien todos los modelos de clasificación arrojaron métricas muy similares dando un porcentaje de exactitud mayor al 90%, finalmente se seleccionó el modelo con Random Forest ya que tiene una alta precisión, tiene un buen manejo de los datos faltantes y la aleatoriedad reduce el riesgo de sobre ajuste. En el desarrollo de este proyecto se utilizó la investigación de tipo aplicada que tiene como objetivo resolver problemas concretos, y se utilizó un enfoque cuantitativo ya que se analizó los datos históricos académicos y financieros de los últimos 10 años de la institución, para la parte de minería de datos se trabajó con CRISP - DM que brindó una estructura clara y flexible para la comprensión de los datos. Gracias a los resultados obtenidos durante el análisis de los datos y de los modelos desarrollados se puede indicar que existen procesos en el área financiera que se deben revisar para obtener una información más precisa y de esta forma mejorar la exactitud de los modelos, existen carreras que deben ser evaluadas a fondo para tomar la decisión de reestructurarlas, finalmente se recomendó revisar los procesos administrativos internos para que sirvan de apoyo a los estudiantes en la culminación de sus estudios.
  • ItemOpen Access
    Evaluación y comparación de modelos predictivos basados en Machine Learning para la prevención de la deserción académica en una institución universitaria.
    (PUCE - Quito, 2025) Oña Tituaña, Jenny Marisol; Mora Londoño, Édison Vicente
    El presente trabajo de titulación tiene como objetivo desarrollar y comparar tres modelos de clasificación basados en algoritmos de Machine Learning, para predecir la deserción universitaria en una universidad privada del Ecuador. Estos modelos se plantean como una herramienta de alerta temprana, diseñada para identificar a los estudiantes en riesgo de abandonar sus estudios y, de esta manera, permitir a las instituciones de educación superior implementar medidas preventivas que fomenten la retención estudiantil. Para cumplir este propósito se emplean los algoritmos Random Forest, Adaptive Boosting y Gradient Boosting debido a su robustez en problemas de clasificación. Random Forest combina múltiples árboles de decisión para manejar datos complejos y reducir el sobreajuste. Adaptive Boosting ajusta el peso de las observaciones mal clasificadas en cada iteración, mejorando la detección de patrones en datos desbalanceados. Gradient Boosting, al optimizar la función objetivo ajustando las predicciones residuales, es eficaz en la captura de relaciones complejas y no lineales. El análisis se llevará a cabo utilizando un conjunto de datos privados que incluye variables representativas de factores académicos, personales, e institucionales asociados al riesgo de deserción. La metodología CRISP-DM (Cross-Industry Standard Process for Data Mining) guiará el proceso de desarrollo, asegurando un enfoque estructurado para la preparación, análisis y evaluación de los datos.
  • ItemOpen Access
    Desarrollo de un modelo predictivo basado en Machine Learning para anticipar emergencias por especialidad y estaciones de Bomberos del Distrito Metropolitano de Quito
    (PUCE - Quito, 2024) Moina Campos, Manuel Eduardo; Nicolalde Rodríguez, Damián Aníbal
    Este trabajo presenta el desarrollo de un modelo predictivo basado en técnicas de Machine Learning cuyo objetivo es anticipar la cantidad de emergencias atendidas por Bomberos del Distrito Metropolitano de Quito. La motivación principal radica en la complejidad en la diversidad de especialidades de emergencias que atiende Bomberos: incendios, rescates, materiales peligrosos, atención prehospitalaria y eventos hídricos y meteorológicos, los cuales se distribuyen de manera desigual en el territorio y demandan una respuesta efectiva. Para abordar este problema, se recopilaron y analizaron datos históricos de los años 2022, 2023 y 2024, procedentes de los registros oficiales de Bomberos del Distrito Metropolitano de Quito. Estos datos incluyen la fecha y hora de la emergencia, la estación que brindó la atención, la especialidad de la emergencia entre otras variables relevantes. Previo al modelado, se realizó un proceso de limpieza de datos, eliminando columnas que no aportaban valor a la predicción y transformando variables categóricas para que pudieran procesarse correctamente. Por otra parte, se integraron nuevas variables como el día de la semana, se agruparon las emergencias por especialidad, fecha y día del mes y se agregó la variable número de emergencias con el fin de capturar posibles patrones temporales. Como parte de la metodología se integró CRISP-DM, partiendo de la comprensión del negocio continuando con la preparación de datos y finalizando con la validación y evaluación del modelo. El algoritmo escogido fue Random Forest, seleccionado por su robustez ante valores atípicos, su capacidad de manejar variables heterogéneas y su facilidad para capturar relaciones no lineales. Los resultados obtenidos evidencian que el modelo es capaz de predecir con un error moderado la frecuencia de emergencias en las distintas estaciones, identificando tendencias con cierto grado de confiabilidad. Sin embargo, aún se observan limitaciones en escenarios puntuales como fines de semana largos debido a feriados o eventos meteorológicos extremos. Estas situaciones exigen variables adicionales como datos climáticos.
  • ItemOpen Access
    Desarrollo de un modelo clasificador para el descarte de ganado vacuno en una hacienda ganadera
    (PUCE - Quito, 2025) Medina Perugachi, Liseth Andrea; Roa Marín, Henry Nelson
    El descarte vacuno constituye un proceso esencial en la gestión ganadera, ya que permite identificar y retirar del hato aquellos animales que no cumplen con ciertos criterios productivos y reproductivos. En este contexto, el presente trabajo tiene como finalidad desarrollar un modelo clasificador que optimice este proceso, utilizando técnicas avanzadas de aprendizaje automático. Para lograr este objetivo, se recopiló un conjunto de datos que incluye diversas características relacionadas con la productividad y la salud de los animales, tales como la producción de leche, el historial de enfermedades, y los parámetros fisiológicos. A partir de estos datos, se implementó un enfoque de aprendizaje supervisado, comparando tres modelos de clasificación: Random Forest, Máquinas de Soporte Vectorial (SVM) y Regresión Logística. Se utiliza la metodología CRISP-ML, que permite desarrollar y evaluar los modelos de clasificación, adicionalmente se aplican métricas para evaluar la calidad y rendimiento del modelo como accuracy, F1-score, recall y ROC-AUC. Este trabajo contribuye al avance de la tecnología en el sector agropecuario y abre nuevas posibilidades para la aplicación de técnicas de aprendizaje automático en la gestión ganadera.
  • ItemOpen Access
    Caracterización de defunciones hospitalarias por problemas cardiacos en Ecuador, usando técnicas de ciencia de datos
    (PUCE - Quito, 2025) Gavilanez Ocampo, Jimmy Byron; Ortíz Navarrete, Miguel Dimitri
    La finalidad de este proyecto es aplicar técnicas de ciencia de datos que permitan analizar el comportamiento de las defunciones hospitalarias por problemas cardiacos en Ecuador mediante el uso de series temporales y técnicas de clusterización. La información para realizar este análisis se obtuvo de los egresos hospitalarios recopilada y proporcionada por el INEC en formato csv, para la preparación de la data y elaboración de los respectivos modelos se utilizó la metodología CRISP-DM con su respectivo proceso. Para la aplicación de las series temporales se usó el método de Holt con tendencia, el método multiplicativo de Holt Winters, ARIMA y SARIMA, además se emplea la técnica de clusterización k modes, para identificar patrones, además en series temporales se usó algunas técnicas de evaluación como el MSE, RMSE, MAE y MAPE, mientras que para la técnica de k-modes se utilizó el Silhouette Score. Los algoritmos fueron desarrollados en Python en Jupyter Notebook, a partir de la evaluación de los modelos realizados se concluyó que el mejor método para predecir las defunciones por problemas cardiacos es el método multiplicativo de Holt Winters, además el análisis de clusterización con Silhouette Score se determinó que el mejor número de clústeres es 3 los cuales comprenden cada uno con sus características considerables como los grupos de edad, el género, y demás características demográficas. Este análisis sirve de insumo para las autoridades sanitarias del país para diseñar programas de salud pública centrados en la prevención, detección temprana y manejo de afecciones relacionadas con las defunciones por problemas cardiacos, además, las entidades encargadas de esto podrían explorar métodos como el análisis de cohortes, redes neuronales o modelos de predicción basados en aprendizaje automático, permitiendo una respuesta más precisa a las problemáticas de salud en Ecuador.