Tesis - Maestría en Sistemas de Información mención en Data Science

Entérate cómo entregar tus trabajos de titulación

Permanent URI for this collection

https://repositorio.puce.edu.ec/handle/123456789/545

Browse

Now showing 1 - 20 of 79

Open Access
Modelo predictivo para optimizar el tiempo de atención de órdenes de instalación y mantenimiento de servicios de redes fijas GPON en Ecuador, basado en el indicador de calidad de customer experience
(PUCE - Quito, 2026) Ospina Rivadeneira, Mateo Nicolás; Nicolalde Rodríguez, Damián Aníbal
En la actualidad, la infraestructura de redes de internet está bajo total dominio de las redes de fibra óptica “GPON” está tecnología permite una conectividad de alta frecuencia con gran desempeño y con comparticiones distintas para distintos tipos de clientes, se encuentra en constante expansión por distintas empresas prestadoras de servicios de telecomunicaciones lo que hace que sea de fácil acceso con un costo accesible para todo tipo de mercado Bhais et al. (2025). La instalación de un servicio de fibra óptica necesita ciertos procesos para completarse, primero la parte técnica y el aprovisionamiento de los sistemas integrados y permisos de servicio entre conexiones, al ser un flujo técnico muy repetitivo, pero con valores atípicos como cualquier actividad, logra relacionarse con Machine Learning y se genera una búsqueda de la eficiencia en la operatividad minimizando los errores que se producen día a día Arin et al. (2025). La calidad es un factor clave para una empresa multinacional prestadora de servicios de telecomunicaciones, ya que la inversión por parte de la compañía va año a año desarrollando nuevas propuestas en un mercado altamente competitivo donde una recomendación hace la diferencia, los clientes valoras las experiencias que ofrezca la empresa muy aparte de la contratación del servicio de fibra óptica, les interesa que su opinión sea tomada en cuenta, que no les cueste trabajo generar un mantenimiento y mucho menos tener que esperar varios días entre otros, se convierte en un indicador que nos indica el índice de satisfacción del usuario hacia el servicio que contrató, aunque las empresas consolidadas que son grandes y poseen un músculo financiero fuerte para promover siempre el cambio atraviesan problemas como cualquier empresa pequeña, sesgar este tipo de inconvenientes se puede lograr mediante una planificación efectiva, las herramientas tecnológicas que se encuentran a disposición actualmente recrean escenarios para proyectarse a futuro y poder tener información en función al volumen neto generado en fechas anteriores, las métricas deben concluir con los factores que influyen en el diario de una operación nacional Anderson (2024). Los canales comerciales que generan órdenes de instalación en distintos puntos del país tienden a ser variables debido a su personal variable, feriados, fines de semana, eventos especiales que generan al final del día incumplimiento por parte del área en sí y repercute directamente en el personal técnico que necesita de ese volumen para poder generar su planificación y netamente su trabajo, lo más importante es la relación con el cliente por n cantidad de tiempo, lo ideal es conseguir coordinar de manera efectiva e instalar la órden sin ninguna complicación, el nivel de servicio es una percepción de la cadena de valor que forma una instalación, mantener calidad se refleja en números que son medidos día a día, semana contra semana y mes contra mes, sin embargo, el más importante es poder atender órdenes en un rango de 0 a 24 horas ya que es la promesa directa con el cliente y en caso de existir escenarios distintos cumplir los objetivos del día a nivel individual y colectivo Farabi (2025).
Open Access
Predicción probabilística del tipo de aforo aduanero en importaciones courier a Ecuador: clasificación multiclase (automático, documental, físico intrusivo y físico no intrusivo-RX) con aprendizaje automático en Python
(PUCE - Quito, 2026) Romero Arteaga, Kevin Andrés; Nicolalde Rodríguez, Damián Aníbal
Este trabajo propone el diseño y evaluación de un modelo predictivo que estime, para cada paquete de importación courier en Ecuador, la probabilidad de asignación a cuatro clases de aforo: automático, documental, físico intrusivo y físico no intrusivo (RX). El problema se formula como una clasificación multiclase con severo desbalance, por lo que se emplean métricas robustas (macro-F1, balanced accuracy) y medidas específicas para eventos raros como curvas Precision-Recall (Saito & Rehmsmeier, 2015). Dado que el objetivo operativo requiere probabilidades confiables, se incorpora evaluación de calibración probabilística y el uso de puntuaciones probabilísticas (Niculescu-Mizil & Caruana, 2005; Guo et al., 2017). La metodología se alinea con CRISP-DM, emplea partición temporal para evitar fuga de información y combina modelos supervisados con segmentación no supervisada para descubrir perfiles latentes de riesgo (He & Garcia, 2009; OSCE, s. f.). Se utilizan datos históricos anonimizados del courier (N=128,484), donde la clase automática representa ~95.9% de los casos. Los resultados preliminares muestran que la etapa de detección de casos no automáticos alcanza ROC-AUC=0.731 y PR-AUC=0.186, con umbral operativo para recall≈0.80 y precisión≈0.12, priorizando la capacidad de alerta temprana. Se discuten implicaciones operativas (gestión de tiempos y comunicación al cliente), aportes académicos (identificación de factores asociados a mayor control) y límites del estudio (no causalidad y dependencia del conjunto de datos del courier).
Open Access
Predicción de la demanda en un entorno de alta variedad de productos: un modelo para la industria de sillas de oficina con componentes intercambiables
(PUCE - Quito, 2026) Luna Fernández, Juan Gabriel; Roa Marín, Henry Nelson
La predicción de la demanda constituye uno de los problemas más relevantes en la gestión de operaciones y la cadena de suministro, debido a su impacto directo en la planificación de la producción, la gestión de inventarios y la rentabilidad empresarial (Chopra & Meindl, 2019). Tradicionalmente, el pronóstico se ha abordado mediante modelos univariantes de series de tiempo, tales como ARIMA y ETS, los cuales han demostrado ser eficaces en contextos donde los productos presentan comportamientos relativamente estables y estructuras bien definidas (Box et al., 2015; Hyndman & Athanasopoulos, 2021). Sin embargo, la evolución de los mercados hacia esquemas de alta personalización ha incrementado significativamente la complejidad del problema. En industrias donde los productos finales se construyen a partir de componentes intercambiables, la demanda no depende únicamente del comportamiento histórico de un producto individual, sino de la interacción estructural entre múltiples configuraciones posibles (Pine, 1993; Salvador et al., 2009). En la industria de sillas de oficina con diseño modular, una misma base, respaldo o mecanismo puede formar parte de numerosas configuraciones finales. Esta característica genera una explosión combinatoria que dificulta la aplicación directa de modelos tradicionales de series de tiempo, pues la demanda de un componente depende simultáneamente de múltiples productos finales que lo incorporan. Desde la perspectiva del diseño modular, esta interdependencia introduce desafíos en la agregación y desagregación de la demanda (Ulrich, 1995). En este contexto, el avance de técnicas de Machine Learning y Deep Learning ha abierto nuevas posibilidades para modelar relaciones no lineales, capturar interdependencias complejas y manejar alta dimensionalidad en los datos (James et al., 2021; Goodfellow et al., 2016). Estas herramientas resultan particularmente prometedoras para abordar entornos de alta variedad de productos, donde los enfoques estadísticos clásicos presentan limitaciones estructurales.
Open Access
Propuesta de un modelo de gestión de servicios de analítica de datos basado en ITIL 4, aplicado a entornos productivos o empresariales
(PUCE - Quito, 2026) Alvia González, Jorge Luis; Arcos Villagómez, Suyana Fabiola
La presente investigación propone un modelo de gestión de servicios de analítica de datos basado en ITIL 4 aplicado a entornos productivos o empresariales. El estudio parte del diagnóstico del servicio analítico asociado a plataformas de telemetría vehicular, identificando brechas en la gestión de datos, en la definición de roles y en los procesos de generación de valor a partir de la información operativa. Como parte de la validación conceptual del modelo se desarrolló un aplicativo analítico implementado en Google Colab utilizando PySpark, el cual permite procesar reportes operativos provenientes de la plataforma WorldFleet. El procesamiento de los datos permite generar datasets estructurados y construir tableros analíticos en Power BI orientados al monitoreo del comportamiento de conducción y a la toma de decisiones operativas. Los resultados evidencian que la integración de capacidades analíticas con prácticas de gestión de servicios permite mejorar la confiabilidad de la información, facilitar la identificación de riesgos operativos y fortalecer la toma de decisiones basada en datos dentro de entornos de monitoreo logístico.
Open Access
Implementación de dashboard para la exploración y gestión eficiente del talento humano de la Coordinación Zonal 6 del Ministerio de Salud del Ecuador.
(PUCE - Quito, 2026) Nivicela Arbito, Jonnathan Fernando; Montero Bermúdez, Eduardo José
El presente trabajo de titulación aborda la optimización de la gestión de talento humano en la Coordinación Zonal 6 del Ministerio de Salud del Ecuador, mediante el diseño e implementación de un dashboard operativo integral. Este sistema surge como solución a los cuellos de botella derivados del procesamiento manual de registros en hojas de cálculo con operaciones y formulas sujetas al error humano por falta de automatización y alertas. La arquitectura se fundamenta en microframeworks (Flask), contenedorización (Docker) y persistencia mediante formatos columnares (Parquet), integrando inteligencia artificial a través del algoritmo K-means para la clasificación automatizada de eventos, eliminando así el sesgo humano en la depuración de datos. Los resultados en la fase de prueba, realizada con una nómina de 170 colaboradores, demuestran una reducción drástica en el esfuerzo administrativo: operaciones que anteriormente demandaban días-hombre se ejecutan ahora en pocos minutos, reduciendo el tiempo global de procesamiento a apenas el 20% en comparación con el método tradicional. Esta herramienta, diseñada para ser escalable, no solo mejora la eficiencia técnica y el clima laboral, sino que transforma el rol del analista administrativo de un operador de datos a un tomador de decisiones estratégico con capacidad de exploración dinámica.
Open Access
Caracterización de clientes mediante técnicas de clustering sobre patrones de consumo farmacéutico para estrategias de marketing
(PUCE - Quito, 2026) Basurto Lara, Carlos Junior; Nicolalde Rodríguez, Damián Aníbal
Diversos estudios coinciden en que no existe una técnica de segmentación que garantice resultados óptimos en todos los contextos. El desempeño de los algoritmos de clustering depende en gran medida de cómo estén organizados los datos y del entorno en el que se aplican (Abbasimehr et al., 2015). En este sentido, la elección de un método no debería basarse únicamente en su popularidad o en resultados obtenidos en otros sectores, sino en evaluaciones comparativas ajustadas a las características específicas del negocio. Los trabajos que describen de forma completa cómo se implementan procesos de segmentación en el sector farmacéutico (Syaputra & others, 2020). En muchos casos, el análisis se concentra en indicadores técnicos o en la eficiencia del modelo, mientras que aspectos operativos como la integración con sistemas CRM, la definición práctica de los segmentos o la medición del impacto económico reciben menor atención (Y. Yoseph & Heikkilä, 2018a). Esta distancia entre el desarrollo metodológico y su aplicación ha limitado la adopción de estas herramientas, especialmente en empresas medianas. Frente a este panorama, la presente investigación adopta técnicas de clustering, que incorpora un proceso que incluye la preparación de los datos, la comparación de modelos y la validación de los resultados, considerando además las particularidades regulatorias del sector (Abbasimehr et al., 2015). Esta situación cobra especial relevancia en el retail farmacéutico ecuatoriano, un sector caracterizado por la fragmentación del mercado y por un entorno regulatorio exigente que condiciona la forma en que se desarrollan las prácticas comerciales (García, 2022). Por lo tanto, los propósitos de este estudio se enfocan hacia el análisis de los patrones de compra a través de variables LRFM generadas a partir de datos históricos, la comparación de algoritmos de agrupación en términos de estabilidad e interpretabilidad, la identificación de segmentos en función de su valor presente y potencial futuro, y la formulación de directrices estratégicas acordes con cada perfil identificado (Syaputra et al., 2020; (Syaputra & others, 2020a; Y. Yoseph & Heikkilä, 2018a) Por último, el documento se organiza en capítulos que recorren la revisión teórica, el diseño metodológico, la presentación y el análisis de los resultados, así como la discusión de sus implicaciones y limitaciones, con el fin de ofrecer una visión clara y actualizada de la segmentación de clientes farmacéuticos mediante técnicas de clustering.
Open Access
Análisis de factores que influyen en la retención de usuarios en aplicaciones móviles mediante análisis de datos
(PUCE - Quito, 2026) Correa Sisalema, Helen Madeleine; Nicolalde Rodríguez, Damián Aníbal
En la actualidad, las aplicaciones móviles gracias a los procesos de digitalización se han integrado en el día a día de los usuarios llegando a convertirse en un componente fundamental tanto en aspectos personales como en aspectos comerciales en la interacción entre usuarios y empresas. Para inicios de 2025 a nivel mundial existían aproximadamente 8,93 millones de aplicaciones (Turner, 2025), evidenciando la proliferación de apps y la intensa competencia por la atención de los usuarios. El principal desafío para los desarrolladores y las empresas es la retención de usuarios, es decir, la capacidad de mantener a los usuarios activos y comprometidos con el uso constante en el tiempo de las aplicaciones. Diversas investigaciones mencionan que las apps experimentan una alta tasa de abandono después de la primera interacción, según datos de AppsFlyer (2020), el 45% de las desinstalaciones ocurren en las 24 horas posteriores a la instalación. Para mitigar esta pérdida, el análisis descriptivo es insuficiente; se requiere un modelado predictivo que identifique patrones de riesgo, transformando los datos de mercado y características técnicas en un indicador de alta retención clave de éxito y sostenibilidad de una aplicación móvil, dado que las elevadas tasas de abandono ocasionan pérdidas de recursos e ingresos significativos para las empresas. Se propone analizar los factores que posicionan a una aplicación en un segmento de alta retención, mediante el uso de datos agregados de características técnicas y comportamiento de mercado, mediante la aplicación de modelos de Machine Learning. Como principal objetivo identificar qué variables tienen mayor impacto en la lealtad del mercado, predecir la probabilidad de que una aplicación móvil se encuentre en el segmento de alta retención y sugerir estrategias y sugerir estrategias para mejorar la fidelización. Este enfoque toma importancia en un contexto competitivo, donde el costo de adquisición de nuevos usuarios es elevado y retener a los existentes es una alternativa más rentable y sostenible (Boozary, Sheykhan, GhorbanTanhaei, & Magazzino, 2025).
Open Access
Construcción de un modelo predictivo de riesgo de deserción estudiantil mediante técnicas de aprendizaje automático, utilizando datos abiertos de educación superior del período 2015-2023, con el fin de apoyar la toma de decisiones institucionales orientadas a mejorar la permanencia estudiantil en las universidades públicas del Ecuador
(PUCE - Quito, 2026) Romero Pulla, Cristhian Ernesto; Alarcón Mena, Jorge Alejandro
El presente trabajo tiene como objetivo construir un modelo predictivo de riesgo de deserción estudiantil mediante técnicas de aprendizaje automático, utilizando datos abiertos de educación superior correspondientes al período 2015–2023, con el fin de apoyar la toma de decisiones institucionales orientadas a mejorar la permanencia estudiantil en las universidades públicas del Ecuador. La investigación se desarrolla bajo un enfoque cuantitativo, con un diseño analítico y predictivo, a partir de registros oficiales del sistema de educación superior en formato agregado. Para el desarrollo del modelo se aplican técnicas de preprocesamiento, selección de características y entrenamiento de algoritmos de aprendizaje automático. Dado que los datos disponibles corresponden a conteos agregados de matrícula, el riesgo de deserción se operacionaliza a nivel de segmento/cohorte mediante patrones y variaciones temporales de matrícula según características académico-programáticas, demográficas e institucionales. El análisis permite identificar segmentos con mayor nivel de riesgo y evaluar el desempeño del modelo mediante métricas de clasificación. Se concluye que la aplicación de modelos predictivos basados en aprendizaje automático constituye una herramienta útil para generar señales tempranas de riesgo a nivel agregado y facilitar la priorización de estrategias institucionales orientadas a fortalecer la permanencia estudiantil. Este estudio aporta evidencia y un enfoque reproducible basado en datos abiertos para apoyar decisiones en el sistema universitario público ecuatoriano.
Open Access
Diseño e implementación de un sistema agéntico para la gestión del conocimiento con inteligencia artificial generativa
(PUCE - Quito, 2026) Saravia Ávila, Bryan Alexander; Montero Bermúdez, Eduardo José
La gestión del conocimiento (Knowledge Management, KM por sus siglas en inglés) constituye un componente fundamental para la explotación efectiva del conocimiento organizacional. Existen estudios recientes que demuestran que las prácticas de KM explican más del 80 % de la variabilidad del desempeño empresarial mediante mecanismos de innovación, aprendizaje organizacional y eficiencia operativa (Ştefan et al., 2024) , es así, de manera complementaria, (Isa & Rahmah, 2023) muestran que la relación entre KM y desempeño es mediada por capacidades dinámicas con un efecto indirecto significativo, reafirmando que la ausencia de procesos formales y tecnología adecuada limita la creación, uso y transferencia del conocimiento crítico. Las organizaciones enfrentan diversos retos estructurales, entre ellos la fragmentación documental, la existencia de repositorios heterogéneos, la duplicidad de información, la pérdida de conocimiento experto y las dificultades para acceder a datos no estructurados. Estas brechas impactan la capacidad para responder a necesidades de negocio basadas en conocimiento, situación identificada como un obstáculo en la literatura reciente de KM e innovación organizacional. En este sentido, marcos internacionales como ISO 30401, TOGAF® Standard y DAMA-DMBOK2 establecen que la gestión del conocimiento debe abordarse como un sistema formal integrado a la arquitectura empresarial, con procesos medibles y mecanismos de mejora continua. En paralelo, el auge de la inteligencia artificial generativa (GenAI) está redefiniendo la forma en que las organizaciones gestionan su conocimiento. Según McKinsey & Company (Chui, Yee, et al., 2023), menos del 33 % de las empresas ha adoptado GenAI de manera regular, pese a su potencial para incrementar la productividad laboral entre 0.1 % y 0.6 % anual, pudiendo alcanzar hasta 3.4 % en combinación con otras tecnologías. La baja adopción se debe, en parte, a la falta de integración de GenAI con marcos robustos de KM y a la dificultad para operacionalizar el conocimiento no estructurado. En este marco adquieren especial relevancia los sistemas agénticos, junto con las técnicas de Retrieval-Augmented Generation (RAG) y GraphRAG, ya que posibilitan la integración de la capacidad generativa de los modelos de inteligencia artificial con mecanismos de recuperación de información verificada, trazabilidad y razonamiento estructurado. Estudios recientes demuestran que el enfoque RAG contribuye a la reducción de alucinaciones y, entre sus principales beneficios, destaca la mejora en la recuperación contextual de la información, así como el apoyo a la generación y actualización de activos de conocimiento organizacional (Gao et al., 2024; James et al., 2025). De forma complementaria, los enfoques basados en grafos, como GraphRAG, facilitan la exploración de relaciones semánticas complejas y aportan mayor explicabilidad, aspectos esenciales en entornos corporativos donde el conocimiento debe ser confiable, auditable y coherente con los procesos de negocio. Considerando este escenario, se identifica una brecha crítica, pues, las organizaciones aún carecen de sistemas unificados que integren IA generativa, recuperación contextual (RAG) y principios de gestión del conocimiento alineados a estándares internacionales. Esta brecha motiva el desarrollo del presente estudio, orientado al diseño e implementación de una arquitectura tecnológica de un sistema agéntico apoyado en inteligencia artificial generativa y técnicas de recuperación de información, con el fin de mejorar los procesos de gestión del conocimiento organizacional.
Open Access
Estimación de la radiación UV con modelos de Machine Learning a partir de sensores hidrometeorológicos en el Distrito Metropolitano de Quito (DMQ)
(PUCE - Quito, 2026) Cachaguay Alquinga, Alexis Sebastián; Chafla Altamirano, Juan Francisco
En el presente trabajo de maestría se desarrolló un modelo predictivo para la estimación del Índice Ultravioleta en Quito, basado en datos meteorológicos de 4 estaciones y técnicas de aprendizaje automático. Tras comparar algoritmos y evaluar el impacto de la heterogeneidad espacial, se seleccionó LightGBM entrenado exclusivamente con datos de la estación Belisario como el modelo final, alcanzando un 𝑅2 de 0.942, RMSE de 0.809 y un desempeño sobresaliente en rangos críticos (MAE extremo = 1.737; recall IUV >8 = 0.807). Se implementó una aplicación web interactiva con Streamlit y Folium que permite la edición manual de sensores (RS, TMP, HUM), visualización geográfica satelital de las 33 estaciones (9 de la Secretaría de Ambiente y 24 de EPMAPS) y actualización en tiempo real de predicciones, con indicadores de riesgo y recomendaciones sanitarias según estándares OMS. Los resultados demuestran que el enfoque por estación individual supera al modelo global en precisión y utilidad práctica, destacando la importancia de considerar la variabilidad microclimática en regiones andinas tropicales. La solución propuesta ofrece una herramienta viable para monitoreo ambiental y prevención de riesgos asociados a la radiación ultravioleta, con potencial de escalabilidad e integración con sistemas de alerta sanitaria.
Open Access
Evolución de la ciencia de datos y brecha de talento en América Latina: análisis comparativo de oferta, demanda y desafíos (2015–2025)
(PUCE - Quito, 2026) Vivas Carrillo, Alex Sebastián; Nicolalde Rodríguez, Damián Aníbal
En la última década, la ciencia de datos se ha consolidado como una de las disciplinas más relevantes dentro del ámbito tecnológico y científico, debido a su capacidad para transformar grandes volúmenes de datos en información útil para la toma de decisiones estratégicas. El avance de tecnologías como el big data, el machine learning y la inteligencia artificial ha impulsado su adopción en múltiples sectores, incluyendo la industria, la educación, la salud y los servicios financieros. En este contexto, la disponibilidad de talento especializado se ha convertido en un factor crítico para el desarrollo y la competitividad de las organizaciones y de los países. En América Latina, la adopción de la ciencia de datos ha experimentado un crecimiento significativo, impulsado por procesos de transformación digital y por la creciente demanda de soluciones basadas en datos. Sin embargo, este crecimiento no ha sido homogéneo entre los países de la región y ha puesto en evidencia una brecha persistente entre la oferta formativa disponible y la demanda laboral de profesionales capacitados en ciencia de datos. Esta brecha de talento representa un desafío estructural que limita el aprovechamiento pleno de las oportunidades que ofrece la economía digital. La identificación y el análisis de esta brecha resultan fundamentales para comprender el estado actual del ecosistema de ciencia de datos en América Latina. Factores como el acceso a programas de formación especializada, la inversión en educación tecnológica, el nivel de adopción de herramientas analíticas y las diferencias socioeconómicas entre países influyen directamente en el desarrollo del talento y en la capacidad de las organizaciones para implementar soluciones basadas en datos de manera efectiva. En este marco, la presente investigación tiene como propósito analizar la evolución de la brecha de talento en ciencia de datos en América Latina durante el período 2015–2025, mediante un enfoque cuantitativo y un diseño descriptivo correlacional. El estudio se basa en el análisis de datos secundarios provenientes de fuentes institucionales y organismos internacionales, con el fin de comparar indicadores asociados a la oferta formativa, la demanda laboral y la adopción tecnológica entre distintos países de la región, e identificar patrones, tendencias y relaciones entre dichas variables. Este trabajo se desarrolla bajo la modalidad de artículo científico y aspira a contribuir al ámbito académico mediante la generación de evidencia empírica que permita comprender de manera más precisa las dinámicas regionales del talento en ciencia de datos. Asimismo, busca ofrecer insumos útiles para la formulación de estrategias educativas, institucionales y de política pública orientadas al fortalecimiento del capital humano digital y al desarrollo sostenible del ecosistema analítico en América Latina. A diferencia de los informes institucionales que presentan diagnósticos descriptivos sobre transformación digital en América Latina, el presente estudio propone un análisis empírico longitudinal y comparativo que integra variables cuantificables de oferta formativa, demanda laboral y adopción tecnológica durante el período 2015–2025. El trabajo se basa en datos secundarios provenientes de organismos multilaterales, bases estadísticas oficiales y reportes de mercado laboral, lo que permite operacionalizar la brecha de talento como una relación medible entre la disponibilidad de capital humano especializado y la demanda efectiva del mercado. De esta manera, la investigación no solo describe la situación regional, sino que analiza relaciones estructurales entre variables, aportando evidencia sistemática que fortalece el debate académico sobre el desarrollo del ecosistema de ciencia de datos en América Latina.
Open Access
Aplicación de técnicas de machine learning para predecir la desnutrición infantil en Ecuador
(PUCE - Quito, 2024) Puente Tiscama, Cleber Damián; Montero Bermúdez, Eduardo José
El presente trabajo de titulación establece un modelo optimizado de machine learning que permite predecir la desnutrición crónica infantil con un nivel de accuracy lo suficientemente alto como para tomar decisiones. Se utiliza la base de datos de la Encuesta Nacional de Salud y Nutrición (ENSANUT). El proyecto realizado tiene como objetivo principal implementar un modelo de aprendizaje supervisado que permita predecir la desnutrición crónica infantil en el Ecuador, este modelo tendrá muy buenas métricas de performance e.g.roc auc superior a 0.8, acurracy por encima del 80%. Como resultado se obtendrá un modelo computacional de clasificación binaria de machine learning en lenguaje de programación Python con un nivel alto de accuracy que permita caracterizar y clasificar a los niños con desnutrición crónica infantil. Se recomienda proveer una estrategia de implementación y uso del modelo, así como un análisis del grado de influencia de las variables.
Open Access
Desarrollo de un modelo de clasificación para la detección de fraudes en transacciones de tarjetas de crédito mediante el uso de técnicas de deep learning
(PUCE - Quito, 2024) Lincango Tite, Carlos Andrés
El presente trabajo de titulación es el fruto del conocimiento adquirido durante la Maestría de Sistemas de Información con mención en Data Science aplicados a una problemática específica: la utilización de técnicas de aprendizaje profundo para la detección de anomalías en transacciones generadas con tarjetas de crédito.De acuerdo con información de la Superintendencia de Bancos y Aval Buró, en 2023 en Ecuador existieron 4,2 millones de tarjetas de crédito activas, con las cuales, más de 2 millones de tarjetahabientes realizaron 105 millones de consumos por un monto de USD 21.891 millones. De esta manera, el número de consumos y el monto transaccionado a través de tarjetas de crédito creció frente a 2022 en 11,7% y 17,4%, respectivamente (Asobanca, 2024).De Enero a Junio del 2023, 50.540 nuevos ecuatorianos accedieron por primera vez al sistema formal a través de una tarjeta de crédito. Ellos realizaron 192.999 operaciones. (Asobanca, 2023).El mercado global de pagos con tarjeta de crédito alcanzara para el año 2025 los $ 2 billones, pero también se espera una pérdida como consecuencia del fraude de hasta $ 200 millones. (Gestion, 2021).El tema expuesto en esta investigación es de vital importancia pues intenta desarrollar un modelo de clasificación a partir de aplicar técnicas de aprendizaje profundo que ayuden en la clasificación y la detección de fraudes y anomalías en transacciones ejecutadas con tarjetas de crédito.La pertinencia de desarrollar esta investigación aplicada es la entregar resultados a partir de la utilización de técnicas avanzadas y que dichos resultados puedan ser en aplicaciones de modelos de aprendizaje automático para la detección de anomalías en transacciones con tarjetas de crédito y en futuras investigaciones relacionadas con este tema.
Open Access
Desarrollo de un algoritmo basado en redes neuronales para la identificación automática del melanoma mediante el análisis de imágenes
(PUCE - Quito, 2025) León Alarcón, José Alberto; Escobar Terán, Charles Edisson
El presente trabajo tiene como propósito la implementación y desarrollo de un algoritmo basado en redes neuronales convolucionales, buscando optimizar la eficiencia y precisión en la identificación del Melanoma. Este incluye la revisión exhaustiva de la literatura para informar sobre el estado actual del campo de estudio, la recopilación y preparación de un banco de datos utilizando algoritmos y técnicas como DullRazor y Unsharp Masking, el diseño e implementación de una arquitectura de CNN adaptada a la detección del Melanoma y la evaluación del modelo propuesto mediante métricas de evaluación.La evaluación del modelo demostró́ un funcionamiento superior en términos de clasificación de imágenes, obteniendo una exactitud del 97.77% en datos de prueba. Además, se reportaron métricas basadas en predicciones como: Precisión, exactitud, Recall, puntuación F1 las cuales obtuvieron valores altamente aceptables. Siendo así, este algoritmo de red neuronal convolucional resultó en una mejora significativa en la eficiencia y precisión del diagnóstico dermatológico.Este proyecto no solo aborda una problemática clave en el diagnóstico del melanoma, sino que también presenta una contribución significativa al área emergente de la ciencia de datos aplicada a la salud. El resultado de este trabajo propiciaría una base para futuras investigaciones y desarrollos en la intersección entre la ciencia de datos y la medicina.
Open Access
Identificación automática de tweets de emergencia en la red social “X”: caso de estudio en Ecuador
(PUCE - Quito, 2024) Franco Cantos, Jandry Hernaldo; Montero Bermúdez, Eduardo José
Las redes sociales, en particular la plataforma X, representan mecanismos potencialmente valiosos para el reporte e identificación oportuna de situaciones de emergencia, gracias a la vasta cantidad de información generada continuamente por los usuarios. No obstante, la disponibilidad de corpus específicos relacionados con situaciones de emergencia es limitada, así como la automatización para la identificación de contenido textual pertinente. En este contexto, el presente estudio tiene como objetivo desarrollar un modelo de inteligencia artificial para la identificación automática de textos que abordan situaciones de emergencia, utilizando como base de aprendizaje el contenido generado por usuarios en Ecuador. El análisis y experimentación contempla una comprensión de la incidencia de las características lingüísticas específicas del país al momento de reportar situaciones de emergencia. Los resultados obtenidos de los experimentos muestran un desempeño satisfactorio en la identificación de textos sobre emergencias mediante el clasificador SVM y el clasificador LR, a su vez, los datos indican que las particularidades lingüísticas del español ecuatoriano tienen una incidencia poco significativa para identificar temas de emergencia, sugiriendo que el modelo desarrollado puede generalizarse eficazmente dentro del contexto ecuatoriano. En conclusión, el estudio confirma que es posible identificar textos relacionados con emergencias utilizando técnicas de procesamiento de lenguaje natural en el contexto específico de Ecuador, y que las características lingüísticas particulares del español ecuatoriano no representan una barrera significativa para la eficacia del modelo. Esta contribución puede ser relevante para mejorar los sistemas de alerta y respuesta ante emergencias, utilizando las redes sociales como una herramienta complementaria en la gestión de crisis.
Open Access
Análisis de sentimientos sobre la percepción de seguridad para la ciudad de Cuenca durante el año 2023
(PUCE - Quito, 2024) Figueroa Campoverde, David Sebastián; Espinosa Viteri, Luis Oswaldo
El presente estudio tiene como objetivo principal realizar un análisis de sentimientos de la percepción de seguridad en la población de la ciudad de Cuenca durante el año 2023, con el propósito de evaluar la situación actual del cantón y formular posibles políticas de mejora para abordar la problemática actual. Para alcanzar este propósito, se han delineado objetivos específicos que incluyen la evaluación de la percepción de seguridad a través de la extracción de información de redes sociales X (Twitter) permitiendo contrastar estos datos con estadísticas oficiales sobre inseguridad generadas por Instituciones a nivel local y nacional, teniendo en cuenta que la finalidad de esta investigación es sugerir y proponer posibles medidas correctivas que permitan mitigar y abordar las principales problemáticas relacionadas a la inseguridad que ha afectado al país a nivel general.La metodología propuesta para esta investigación sigue una serie de procedimientos para la extracción, descripción, exploración, tratamiento y transformación de los datos obtenidos. Para la primera etapa se utilizó Apify, una herramienta esencial para la extracción y automatización de datos. Una vez que se contó con los datos necesarios para la descripción y exploración de los datos, se realizó el respectivo proceso de tratamiento y transformación, que abarca la depuración y eliminación de posibles datos duplicados, así como, publicaciones que no hagan referencia a la ciudad de Cuenca, Ecuador. Es importante mencionar que, durante la fase de análisis, se aplicaron técnicas para comprender la perspectiva de cada uno de los datos establecidos, es decir, se organiza y construye el sentimiento de cada dato extraído (tweet). Mediante un contraste, entre TextBlob y Pysentiment los resultados demuestran que existen tanto opiniones positivas como negativas, no obstante, el análisis demuestra una mayor presencia de opiniones neutrales. Sin embargo, a través de un análisis manual se puede determinar que más del 50% de la población cuencana tiene una opinión negativa sobre la seguridad. En conclusión, este estudio se presenta como un valioso recurso para comprender la percepción de seguridad de la población, brindando información clave para el diseño e implementación de políticas efectivas de mejora en la ciudadana. Además, las propuestas para investigaciones futuras ofrecen oportunidades para profundizar en el análisis de la delincuencia y la percepción de seguridad a nivel nacional.
Open Access
Análisis predictivo del churn de clientes para una empresa proveedora del servicio de internet para hogares en el Ecuador
(PUCE - Quito, 2024) Chuquer Erazo, William Hernán; Pincay Nieves, Jhonny Vladimir
El presente estudio se enfoca en el desarrollo de un modelo predictivo para identificar el churn de clientes en una empresa proveedora del servicio de internet para hogares en el Ecuador. Utilizando la metodología CRISP-DM, en la fase de preparación de los datos se realizó un análisis exploratorio utilizando Python, lo que permitió identificar patrones preliminares en el comportamiento de los clientes. En las fases posteriores, se utilizaron herramientas como Alteryx, que facilitó la creación de flujos de trabajo para lograr un análisis exhaustivo de los datos de clientes, aplicando técnicas de limpieza, segmentación y parametrización para garantizar la calidad y relevancia de la información. Qlik Sense fue empleada para lograr una visualización clara y efectiva de los resultados. La técnica de WOE + IV fue crucial para la segmentación y parametrización de variables, mejorando la precisión predictiva.Se entrenaron y compararon varios modelos de machine learning, entre ellos, Regresión Logística, Árboles de Decisión y Random Forest, siendo este último el modelo con el mejor desempeño. Random Forest alcanzó una precisión del 99.5% para la predicción de cancelaciones administrativas y del 81% para cancelaciones voluntarias. Estos resultados proporcionan a la empresa herramientas sólidas para la implementación de estrategias de retención de clientes, permitiendo una intervención proactiva en la gestión de riesgos y mejorando la satisfacción del cliente. El estudio también destaca la importancia de actualizar periódicamente los modelos para adaptarse a cambios en los patrones de comportamiento de los clientes.
Open Access
Análisis predictivo de la demanda de especies valoradas en el consulado del Ecuador en Queens, Estados Unidos de América
(PUCE - Quito, 2024) Chiza Monarco, Víctor Alfonso; Melgarejo Heredia, Rafael
La optimización de la gestión del stock de especies valoradas y la eficiente asignación de este tipo de recursos en el Consulado del Ecuador en Queens son fundamentales para garantizar un servicio consular ágil y efectivo a los ciudadanos ecuatorianos en Estados Unidos. Dada la variedad de trámites consulares y la necesidad de contar con las especies valoradas adecuadas para cada uno, es muy importante comprender y prever la demanda de estos recursos de manera precisa.El análisis y la predicción de la demanda de especies valoradas permitirán al Consulado anticipar las necesidades futuras de trámites consulares y planificar apropiadamente el abastecimiento de especies valoradas en su stock. Esto no solo mejorará la eficiencia en la prestación de servicios consulares, sino que también evitará la escasez o el exceso de estos insumos, optimizando así el uso de recursos financieros y logísticos.Al implementar este proyecto, se espera mejorar significativamente la calidad y la eficiencia de los servicios consulares ofrecidos por el Consulado del Ecuador en Queens, lo que contribuirá a fortalecer la relación entre la comunidad ecuatoriana residente en Estados Unidos y las autoridades consulares. Además, esta iniciativa ayudará a promover una gestión más transparente y eficaz de los recursos públicos asignados a los servicios consulares.
Open Access
Análisis de sentimientos utilizando la red social “X” Twitter para medir el nivel de aceptación del nuevo presidente del Ecuador, Daniel Noboa (noviembre 2023 - abril 2024)
(PUCE - Quito, 2024) Cedeño Menéndez, Roly Steeven; Montero Bermúdez, Eduardo José
El presente trabajo se centra en analizar los sentimientos expresados en la red social “X” Twitter con respecto al presidente Daniel Noboa, con el objetivo de determinar el nivel de aceptación por parte de la población ecuatoriana durante el período comprendido desde el 23 de noviembre de 2023 hasta el 30 de abril de 2024. Para ello, se identificaron y recopilaron 3177 tweets relevantes utilizando técnicas de web scraping, aplicando filtros específicos para excluir tweets con imágenes, videos y retweets.La cuantificación y categorización de las respuestas hacia el presidente revelaron una predominancia de tweets neutrales del 79.7%, indicando una percepción mayormente neutral. Sin embargo, se observó una notable cantidad de críticas, representadas por el 16.6% de los tweets negativos, y relativamente pocos elogios, con solo el 3.7% de los tweets siendo positivos.Los modelos de análisis de sentimientos utilizados incluyeron Naive Bayes, Support Vector Machine (SVM), Logistic Regression, Decision Tree, Random Forest y XGBoost. Cada modelo fue evaluado utilizando métricas como exactitud, precisión, recall y F1-Score, tanto en los datos de entrenamiento como en los de prueba.Los resultados mostraron variaciones significativas en el rendimiento de los modelos, destacándose que el modelo de Naive Bayes presentó un buen equilibrio en las métricas de exactitud y F1-Score, siendo el más adecuado para los datos desbalanceados. Las conclusiones sugieren que, aunque se obtuvieron resultados satisfactorios, es recomendable extender el período de estudio, incorporar otras redes sociales, incluir retweets y respuestas, y explorar modelos de análisis más avanzados para mejorar la precisión.
Open Access
Segmentación de donantes potenciales de una fundación mediante algoritmos de aprendizaje automático
(PUCE - Quito, 2024) Carlozama Villota, Juan Carlos; Melgarejo Heredia, Rafael
La presente tesis tiene como objetivo desarrollar un modelo de segmentación de donantes potenciales para una fundación, utilizando algoritmos de aprendizaje automático.Este proyecto busca identificar variables clave para la segmentación basada en comportamientos y patrones de donación, recopilar datos relevantes sobre donantes, y evaluar la precisión y eficiencia del algoritmo implementado. La metodología utilizada se basa en el enfoque CRISPDM y se aplicarán técnicas de aprendizaje no supervisado.

Browse

Recent Submissions