Tesis - Maestría en Sistemas de Información mención en Data Science
Permanent URI for this collection
Browse
Browsing Tesis - Maestría en Sistemas de Información mención en Data Science by Title
Now showing 1 - 20 of 36
Results Per Page
Sort Options
Item Open Access Análisis comparativo de algoritmos de Machine Learning aplicados en la gestión de riesgos cuantitativos en proyectos predictivos y adaptativos(PUCE - Quito, 2023-08) Osejo Domínguez, Francisco Miguel; Espinosa Viteri, Luis OswaldoEl presente trabajo tiene como fin, realizar el análisis comparativo de la aplicación de algoritmos de Machine Learning en la gestión de riesgos cuantitativos en proyectos predictivos y adaptativos. Los algoritmos seleccionados para el desarrollo de los modelos fueron: Simulación de Monte Carlo aplicando Distribución Triangular y Beta – Pert, Regresión Lineal Simple, Regresión Lineal Múltiple y Arboles de Decisión. Se utilizó la metodología CRISP-DM para sistematizar la información y el flujo de actividades para el desarrollo y posterior evaluación de los modelos analizados. Los modelos se desarrollaron con Python, los datasets seleccionados son relacionados a cronograma y presupuesto de la automatización del sistema BAS y seguridad electrónica de un proyecto del sector de la construcción. Se detalla los análisis e interpretación de los resultados y coeficientes obtenidos en el desarrollo de cada uno de los algoritmos aplicados. Se obtiene un análisis comparativo de la aplicación de los algoritmos seleccionados, modelos y resultados obtenidos, así como las conclusiones y recomendaciones pertinentes.Item Open Access Análisis de sentimientos en redes sociales con aplicaciones en política ecuatoriana(PUCE - Quito, 2022-12-31) Tupiza Baldez, Miguel Ángel; Calderón Serrano, Jorge AlfredoLa constante evolución y transformación de la realidad del mundo en el que vivimos trae consigo nuevas maneras de interactuar, informarnos y participar en casi todos los aspectos en los que antes lo hacíamos de manera restringida, por ejemplo, la política. La vía para informarnos solía ser la prensa, radio y televisión, limitando la fuente de información a espacios de horarios fijos, a márgenes de opiniones según las ideologías y empatías políticas de los medios de comunicación, la participación ciudadana se limitaba a las entrevistas con sus respectivas ediciones. Varios avances tecnológicos han traído consigo reducir esas brechas y permitir a las personas incluirse un poco más en temas que son de su interés. La capacidad de informarse está muy cerca, se la puede hacer en cualquier momento con solo utilizar un smartphone, es posible también opinar y debatir sobre los temas que generan interés o preocupación. No obstante, era de esperarse que el público pudiese ser muy diverso y podría ocasionar todo tipo de comentarios y reacciones entre ellos los poco acertados u ofensivos. Tampoco se puede dejar de lado que se pueda recurrir a trucos digitales para el aumento de la popularidad y seguidores falsos según la plataforma de difusión de contenido. Entonces se hace necesario combatir problemas nuevos con soluciones actuales, es por esto por lo que se plantea un modelo de participación ciudadana digital en asuntos de política nacional para identificar los posibles perfiles falsos y realizar un análisis de sentimientos de los participantes con el fin de tener una visión más realista de sus opiniones para hacerlas llegar a los interesados. Esto podría ayudar a un actor político a tener una realidad sobre la aceptación o no de sus electores para trabajar sobre aquello, manejándose todo sobre el marco adecuado de ética.Item Open Access Análisis del comportamiento de la mortalidad en el Ecuador, mediante el uso de Machine Learning(PUCE - Quito, 2024) Jiménez Torres, Adriana Nataly; Roa Marín, Henry NelsonEl presente trabajo tiene la finalidad analizar el comportamiento de la mortalidad en el Ecuador, mediante el uso de métodos de pronóstico de series temporales como el método de Holt con tendencia, el método multiplicativo de Holt Winters con estacionalidad y tendencia, así como los métodos autorregresivos ARIMA y SARIMA, además se emplea la técnica de agrupación k modes, para identificar patrones sobre la mortalidad. Para llevar a cabo este análisis, se utiliza la metodología CRISP-DM, que permite desarrollar y evaluar los modelos, adicionalmente para los métodos de series de tiempo se utilizan diversas métricas de evaluación como el MSE, RMSE, MAE y MAPE, mientras que para la técnica de k-modes se utiliza el Silhouette Score. Basándose en las métricas utilizadas, se concluye que el método SARIMA es el más adecuado para predecir la causa de muerte tanto por enfermedades isquémicas del corazón como por enfermedades cerebrovasculares, por otro lado, para la diabetes mellitus, el método de suavizado exponencial de Holt con tendencia se destaca como el más preciso entre los modelos evaluados. En el análisis de agrupación se identifican tres grupos distintos que presentan variaciones notables en la edad, causas de muerte y características demográficas.Item Open Access Análisis exploratorio de datos e identificación de agentes que influyen en la desnutrición crónica de niños menores a cinco años del Ecuador mediante la aplicación de técnicas de ciencia de datos(PUCE - Quito, 2023-08-15) Yánez Carrera, Catherine Eleana; Montero Bermúdez, Eduardo JoséEl presente estudio permitió determinar los factores más relevantes que influyen en la desnutrición crónica infantil en ecuatorianos menores de 5 años, para este propósito se usó la base de datos abierta obtenida de la Encuesta Nacional de Salud y Nutrición realizada por el Instituto Nacional de Estadísticas y Censos en el año 2018, donde constan 20.356 observaciones de niños menores de 5 años y el 28,73% pertenecen a niños con DCI. Después de un análisis exploratorio de datos se consiguió un total de 101 variables disponibles, de las cuales se seleccionó de forma automática diez de ellas, haciendo uso de la librería featurewiz. Con este nuevo grupo de variables se creó un modelo de Regresión Logística y un Random Forest, al medir el rendimiento de los modelos con la métrica accuracy, ambos obtuvieron más del 68%, mientras que, al medir la capacidad de diferenciar entre valores positivos y negativos mediante la métrica AUC, ambos modelos alcanzaron más de 0,6. Sin embargo según los valores de la matriz de confusión, el modelo de Regresión Logística es mejor para predecir falsos positivos, es decir predice mejor los casos sin DCI, tiene una precisión del 45,65% y predice correctamente el 97,7% de casos de menores sin DCI , mientras que el modelo Random Forest es mejor para predecir verdaderos positivos, es decir que predice mejor los casos con DCI, adicionalmente tiene una precisión de 68,2% y predice de forma correcta el 22,18% de casos de menores con DCI, bajo este criterio el modelo Random Forest es el modelo seleccionado que mejor explica la desnutrición crónica infantil. Las variables más importantes para construir los modelos fueron: segunda dosis de la vacuna contra el Neumococo: no, área donde habita el menor: rural, nivel de instrucción de la madre: Educación Básica, etnia del menor: indígena, material del techo de la vivienda del menor: palma/ paja/ hoja, baño de la vivienda del menor: no tiene, fuente del agua que bebe el menor: embotellada /envasada, material del piso de la vivienda del menor: tierra. Para conocer similitudes entre las categorías de algunas variables se realizó el análisis de correspondencia, para esto se dividió la data en observaciones con DCI = 1 y DCI = 0, entre las similitudes más relevantes están: “Nivel de instrucción de la madre: Educación Básica” con “Área donde habita el menor: rural”, “Etnia del menor: indígena” con “Baño de la vivienda del menor: no tiene”, “Baño de la vivienda del menor: tiene” con “Etnia del menor: diferente a indígena”, “Área donde habita el menor: urbana” con “Instrucción de la madre: diferente a Educación Básica ” las categorías que no tienen ninguna similitud son: “Material de la vivienda del menor: palma /paja /hoja” y “Material del piso de la vivienda: tierra”.Item Open Access Análisis, diseño e implementación de una propuesta de modelo basado en machine learning para predecir los precios de las viviendas en un sector de la ciudad de Quito(PUCE - Quito, 2023-09-18) Recuenco Canchala, Peter Vicente; Pincay Nieves, Jhonny VladimirLa valoración catastral de las viviendas juega un papel crucial en la recaudación de impuestos y de la planificación urbana. En este contexto, esta investigación se centra en una propuesta de mejorar la precisión y eficiencia de los procesos de valoración catastral en la ciudad de Quito mediante la aplicación de análisis de datos y técnicas de aprendizaje automático, específicamente con modelos de regresión. El estudio aborda los retos inherentes a la revalorización y actualización de la base catastra, donde la agilidad y eficiencia son fundamentales para reflejar la valoración actual de los inmuebles y mejorar la recaudación del impuesto predial. Los objetivos específicos de esta investigación son analizar el impacto de las variables numéricas y categóricas en la valoración catastral, experimentar con diferentes modelos de regresión y seleccionar el que proporcione los mejores resultados en términos de precisión y facilidad de interpretación. Los resultados esperados podrán tener un impacto significativo en la valoración catastral, contribuyendo a optimizar la gestión tributaria y promoviendo la equidad en la distribución del impuesto predial. Además, sentará las bases para futuras investigaciones en el campo de la valoración catastral mediante técnicas de aprendizaje automático avanzados.Item Open Access Aplicación de inteligencia artificial mediante el uso de machine learning para el proceso de clasificación de datos asociados al Centro Médico CMC(PUCE - Quito, 2023-06-12) Espín Espín, Deysi Magaly; Espinosa Viteri, Luis OswaldoLa inteligencia artificial y el aprendizaje automático han revolucionado muchos campos, incluido el ámbito médico. El Centro Médico CMC ha reconocido el potencial de estas tecnologías y se ha permitido aplicar la inteligencia artificial en la información que posee para clasificar los datos asociados. El proceso de clasificación de datos en un Centro Médico puede ser complejo debido a la gran cantidad de información generada. El uso de machine learning permite que el sistema aprenda automáticamente a partir de los datos existentes y genere modelos predictivos. En el caso del Centro Médico CMC, se utilizan algoritmos de aprendizaje automático para analizar y clasificar los datos de manera precisa, eficiente y estos pueden contribuir significativamente a mejorar la atención prestada a los pacientes. El primer paso en el proceso está en la preparación de los datos. Esto implica recopilar y limpiar los datos, eliminando cualquier información redundante o ruidosa. A continuación, se seleccionan las características relevantes. Una vez que los datos están preparados, se utilizan el algoritmo árbol de decisión y regresión logística múltiple. Durante el entrenamiento, el modelo aprende a reconocer patrones y relaciones en los datos para realizar predicciones precisas. Después del entrenamiento, el modelo se evalúa utilizando datos de prueba para medir su rendimiento y precisión. Los beneficios de la aplicación de inteligencia artificial y machine learning en el proceso de clasificación de datos asociados al Centro Médico CMC son diversos. Permite una clasificación más rápida y precisa de los datos, lo que mejora la eficiencia y la toma de decisiones del centro médico.Item Open Access Aplicación de las ciencias de datos para identificar segmentos de clientes en una cadena de farmacias(PUCE - Quito, 2023-08) Villacrés Venegas, Edgar Javier; Ortíz Navarrete, Miguel DimitriEl trabajo de segmentación de clientes realizado implicó el uso de técnicas avanzadas de ciencias de datos para analizar e identificar tendencias de compra y comportamiento de los clientes. Se implementaron dos algoritmos de agrupamiento, k-means y DBSCAN, para segmentar los clientes basándonos en diferentes parámetros, lo cual resultó en una segmentación altamente precisa con más del 90% de certeza en ambos casos. El algoritmo k-means fue particularmente efectivo, logrando una precisión del 95.2% y permitiendo identificar los productos más vendidos en 2022. Por otro lado, el algoritmo DBSCAN, aunque generó un número considerablemente mayor de clusters (8080), permitió identificar a los 10 clientes que más compraron, lo que es crucial para entender sus tendencias de compra y preferencias locales. El análisis también implicó la eliminación de ruido en los datos, lo que mejoró la calidad de los resultados obtenidos. Posteriormente, se utilizó el método silhouette para evaluar la eficacia de ambos algoritmos, obteniendo un valor muy cercano a 1, indicando una segmentación adecuada. Además, se utilizó la metodología CRISP-DM para estructurar el proceso de análisis, lo que facilitó la identificación precisa de los distintos segmentos de clientes y sus características únicas. El análisis final reveló insights valiosos sobre los productos que podrían beneficiarse de estrategias promocionales adicionales, así como información sobre las tendencias de compra de los clientes más importantes. En definitiva, el trabajo realizado no solo logró segmentar a los clientes de manera efectiva, sino que también proporcionó información valiosa sobre las tendencias de compra, lo que permitirá a la empresa focalizar sus esfuerzos en estrategias que potencien su crecimiento económico.Item Open Access Aplicación de técnicas de agrupamiento para caracterizar patrones de siniestros viales en Ecuador en el año 2021(PUCE - Quito, 2023-04-01) Maza Jara, Edwin Alcides; Calderón Serrano, Jorge AlfredoEl presente trabajo de investigación aplicada realiza un estudio sobre los patrones de siniestralidad vial del Ecuador en el año 2021, utilizando modelos no supervisados de agrupamiento de forma que se pueda caracterizar los grupos más comunes en causar accidentes viales. Para el desarrollo de la investigación aplicada se utiliza la metodología de minería de datos CRIPS DM, la cual permite entender la problemática y establecer los objetivos a resolver en sus diferentes fases. Finalmente se provee información adecuada de las características y grupos que más incidencia tienen en los accidentes de tránsito en Ecuador.Item Open Access Aprendizaje Supervisado basado en texto para clasificar patentes de invención dentro de las subclases del sistema estandarizado de Clasificación Internacional de Patentes (CIP)(PUCE - Quito, 2024) Atiencia Garzón, Daniel Alejandro; Pincay Nieves, Jhonny VladimirEl presente proyecto se centra en la aplicación de técnicas de minería de datos para el desarrollo de un modelo de aprendizaje supervisado para la clasificación de patentes dentro del sistema de Clasificación Internacional de Patentes (CIP). Se aborda la clasificación de patentes únicamente en el idioma español debido a que durante la investigación de trabajos similares la mayor parte de esfuerzos están centrados en el idioma inglés y chino. Para lo cual se usó la información del Título y Resumen obtenida de la base de datos PATENTSCOPE que proporciona acceso a solicitudes internacionales de patentes que ya han sido publicadas. La fortaleza que ofrecen los modelos de aprendizaje profundo como las Redes Neuronales para encontrar patrones dentro de un conjunto de datos es importante por lo que se utilizó una Red Neuronal Convolucional Separable que es una variante de la Red Neuronal Convolucional que se enfoca en reducir la cantidad de parámetros y operaciones computacionales requeridas en las capas de convolución reduciendo la sobrecarga computacional. Las redes neuronales pueden deducir el significado de una palabra a partir del orden de estas, debido a esto se realizó una tokenización secuencial a fin de aprovechar las ventajas de su uso. Cuando se trabaja con texto es importante comprender que las palabras del conjunto de datos no son exclusivas del conjunto con el cual se está trabajando, pudiendo aprovechar las relaciones ya establecidas en otros conjuntos de datos. Para esto se usó un modelo preentrenado de Word2vec para trasferir ese aprendizaje previo al modelo y darle una ventaja durante el proceso de entrenamiento. Se espera que, al implementar el proyecto, las clasificaciones realizadas por el modelo puedan orientar de manera adecuada a un analista o investigador, además de ser una herramienta útil para detectar posibles oportunidades de innovación en las diferentes áreas tecnológicas.Item Open Access Clasificación de clientes y predicción de deserciones usando algoritmos K-means y regresión logística(PUCE - Quito, 2023-06-01) Torres Flores, Raúl Alejandro; Calderón Serrano, Jorge AlfredoEl análisis de la deserción de clientes se ha vuelto un desafío común en muchas organizaciones, dado que comprender a fondo las razones detrás de la pérdida de clientes resulta crucial para el éxito y la continuidad de cualquier empresa. En este contexto, este trabajo propone el uso de dos enfoques complementarios: el algoritmo no supervisado K-Means y el algoritmo supervisado Regresión Logística. Por un lado, el algoritmo K-Means permite explorar datos no etiquetados en busca de patrones y segmentos ocultos que puedan revelar información valiosa sobre la deserción de clientes. Por otro lado, la Regresión Logística se emplea para construir modelos que predigan la probabilidad de que un cliente abandone su servicio, basándose en variables relevantes del negocio. La combinación de estos enfoques de análisis brinda una comprensión más profunda y precisa del comportamiento de los clientes, lo cual resulta fundamental para que las empresas puedan adaptar estrategias efectivas de retención y fidelización permitiéndoles tomar decisiones informadas y proactivas, implementando acciones que reduzcan la pérdida de clientes y aumenten la satisfacción y lealtad.Item Open Access Clasificación de los productos de una empresa de Quito considerando el recurso tiempo de mano de obra asignado a cada uno de sus procesos durante el año 2021- 2022 utilizando algoritmos de aprendizaje no supervisado(PUCE - Quito, 2022-12-16) Guañuna Viteri, Norka Germania; Melgarejo Heredia, RafaelDentro de una organización se generan grandes cantidades de datos las mismas que al no ser utilizadas se convierten en información poco útil, por eso incursionar con este tema ayuda a visibilizar datos y problemas que al ser tomados en consideración y clasificados ayudarán a que la empresa actúe de forma oportuna frente a ellos sin esperar que estos se vuelvan más grandes e incontrolables. Al usar un exceso de mano de obra en un producto sube el precio del producto y también le resta el uso del recurso en otros procesos productivos que se encuentran planificados, si estos recursos se usan eficientemente la planificación programada se puede cumplir a cabalidad, cumpliendo con los requerimientos de los clientes a tiempo y aumentando así la confiabilidad de estos hacia la compañía ayudándole a que su posicionamiento en el mercado sea mucho mayor al que tiene actualmente.Item Open Access Desarrollo e implementación de un modelo de segmentación en perfiles de disolución utilizando técnicas de Machine Learning para determinar el factor de similitud (F2) en un estudio de bioequivalencia in vitro para metformina clorhidrato(PUCE - Quito, 2024) Criollo Llumiquinga, Bryan Santiago; S/NLa presente investigación se centró en la aplicación y evaluación de modelos de segmentación para clasificar los perfiles de disolución del medicamento genérico Metformina Clorhidrato 500 mg en variados niveles de pH (6,8 - 4,5 - 1,2). La técnica empleada fue el Random Forest, la cual se eligió por su capacidad para abordar eficazmente relaciones no lineales y gestionar variables predictoras sin una preparación exhaustiva de datos, lo cual es crucial en el contexto de resultados de laboratorio con limitaciones para manipulación o transformación. Los resultados obtenidos destacaron un rendimiento sólido de los modelos, alcanzando precisiones del 79.76% para pH 6,8, 82.14% para pH 4,5 y 80.95% para pH 1,2. Estos resultados demuestran la capacidad de los modelos para prever de manera acertada la disolución del medicamento en diferentes condiciones de pH, siendo el modelo para pH 4,5 el que mostró una leve inclinación hacia una mayor precisión. La evaluación de sensibilidad y especificidad reveló la eficiencia general de los modelos en la identificación de casos positivos y negativos, respectivamente. Aunque se observaron algunas variaciones en ciertos intervalos de tiempo, los modelos demostraron su confiabilidad para clasificar los perfiles de disolución de Metformina Clorhidrato 500 mg. El análisis del factor de similitud (F2) confirmó la equivalencia terapéutica entre el medicamento genérico y el innovador ya que todos los lotes cumplieron con los criterios de bioequivalencia in vitro, con valores de F2 superiores a 50, respaldando la capacidad del medicamento genérico para disolverse y liberar el principio activo de manera similar al medicamento innovador.Item Open Access Determinar el mejor algoritmo de ciencia de datos para una planificación académica automatizada para las IES del Ecuador(PUCE - Quito, 2023-10-18) Hernández Toazo, Héctor Giovanny; Pincay Nieves, Jhonny VladimirDespués de la pandemia las instituciones de educación superior apoyados por los órganos de control del Ecuador, han adoptado diferentes modelos y componentes de enseñanza denominados Sincrónico donde el estudiante a través de la tecnología puede unirse a las clases virtuales en tiempo real desde cualquier parte del mundo; Asincrónico, cuando el estudiante a través de una plataforma LMS (Sistema de Gestión de Aprendizaje), puede estudiar a cualquier hora con el material disponible en el sistema; y el último componente de aprendizaje es el Presencial, que permite que el alumno vaya a una interacción directa con el profesor. Con el avance de la tecnología, cada momento se genera volúmenes de datos de forma digital, y que mejor, utilizar la técnicas y algoritmos aprendidos en esta maestría de ciencia de datos, para aplicar en las diferentes etapas que con lleva la planificación académica. En el proceso de este trabajo se realizará entrevistas a los encargados de la planificación institucional y académica, con el fin de entender los pasos y metodologías que utilizan en la construcción de esta tarea que deben hacerlo a inicios de cada periodo académico, se modelara las tablas necesarias para que la información pueda ser tabulada e importada a las herramientas de Python. Una vez que se termine de modelar y entender, se llevará a Jupyter Notebook el conjunto de datos, para a través de modelos y técnicas de minería de datos pronosticar la oferta distributivo y horario académico.Item Open Access Diseño de un modelo predictivo de fuga de clientes utilizando algoritmos de Machine Learning(PUCE - Quito, 2023-06-01) Navas Ayala, José Ricardo; S/NEl presente trabajo tiene como fin el desarrollo de un modelo predictivo utilizando algoritmos de Machine Learning para la predicción de los clientes que pueden llegar a convertirse en fuga, de tal manera que pueda ser una herramienta de alerta temprana para tomar acciones en cuanto a evitar que un cliente abandone la marca, incentivándolo nuevamente a realizar alguna compra ya sea esta por promociones o descuentos que se le pueda otorgar en determinados productos.Se empleó la metodología CRISP-DM para organizar de manera estructurada la información relevante y el flujo de actividades durante el desarrollo y evaluación del modelo predictivo. El modelo fue creado utilizando Python y se aprovecharon las bibliotecas de pandas y scikit-learn. Se eligió un algoritmo específico para desarrollar el modelo, el cual es el de árboles de decisión con 4 variables predictorasde tipo numérico, que fueron tomadas entre la recencia, frecuencia, valor monetario y RFM_Score. El modelo seleccionado es de suma utilidad para el negocio ya que ha resuelto un problema que venía manejando la corporación desde hace tiempo, al no poder identificar a sus clientes previamente antes de convertirse en fuga, siendo validado por los indicadores de precisión con 91.63%, una curva ROC_AUC de 95.40% y un recall de 96.3%. Con el modelo obtenido se obtuvo la base final que es exportada a Excel a través de una ruta compartida.Item Open Access Diseño de una solución de inteligencia de negocios (BI) que apoye en la toma de decisiones en el sector de la construcción(PUCE - Quito, 2023) Sarango Rubio, Álvaro Javier; Melgarejo Heredia, RafaelEn la actualidad el análisis de las grandes cantidades de información marca un punto de inflexión en el sostenimiento y crecimiento tanto de empresas como de sectores productivos, el sector de la construcción representa para la economía ecuatoriana un eje de crecimiento significativo dado su injerencia en la generación de empleos, activación económica y atracción de inversión extranjera, contar con una herramienta que consolide información tanto histórica como actual representa una gran ventaja puesto que se puede potenciar el análisis no solo a nivel descriptivo sino también generar un valor agregado, la presente investigación tiene el objetivo del diseño y construcción de una solución de inteligencia de negocios que permita realizar un procesamiento y consolidación de datos utilizando la metodología CRISP- DM y técnicas de minería de datos para su posterior consumo a través de tableros de control utilizando la información de la encuesta ESED que proporciona estadísticas de edificaciones.Item Open Access Estudio comparativo de la precisión de algoritmos de aprendizaje automático, regresión logística, máquinas de soporte y clasificador bayesiano, basado en la implementación de modelo predictivos en función de la mortalidad en accidentes en Ecuador(PUCE - Quito, 2023-06) Salgado Escobar, Stalin Sebastián; Mora Londoño, Edison VicenteEl estudio actual se enfoca en un estudio comparativo de tres modelos predictivos que permita establecer el más preciso en el escenario planteado, construidos mediante el uso de técnicas de minería de datos, basado en el estudio de la mortalidad en accidentes de tráfico en Ecuador. El país se enfrenta una tasa de mortalidad en accidentes de tráfico muy alta, transformándose en uno de los mayores problemas dentro del país y reducir es uno de los objetivos prioritarios para la agencia nacional de tránsito del país, dicho estudio se justifica en función de la necesidad de desarrollar herramientas más efectivas para reducir la tasa de mortalidad en accidentes de tránsito, los accidentes de tráfico son una causa importante de mortalidad, y es necesario adoptar nuevas estrategias para abordar este problema de manera más efectiva. El uso de técnicas de minería de datos y modelos predictivos puede ser una forma efectiva de analizar y predecir la mortalidad en accidentes de tráfico. Varios de los ítems identificados en los accidentes de tráfico en el Ecuador se basan en detalles como infraestructura vial deficiente, falta de cultura vial, falta de educación vial, pésima señalización en algunos escenarios. Estos factores aumentan el riesgo de accidentes de tránsito, y por consiguiente el riesgo de pérdidas humanas. El objetivo principal de este estudio es desarrollar un modelo predictivo que permita predecir la mortalidad en accidentes de tránsito en Ecuador mediante el uso de técnicas de minería de datos y modelos predictivos, donde por medio de recopilar los datos históricos, selección de variables relevantes, implementación de técnicas de aprendizaje automático supervisado y evaluar la capacidad predictiva del modelo propuesto podamos entregar una herramienta que permita tomar decisiones más informadas y efectivas en la prevención de accidentes de tráfico y la reducción de la mortalidad. Los datos históricos de accidentes de tráfico en Ecuador se recopilarán de registro de accidentes publicado por agencia nacional de tránsito (ANT), entre los años 2017 y 2022.Item Open Access Estudio de mercado utilizando la red social Twitter, para Hoteles Decameron(PUCE - Quito, 2022-12-31) Manosalvas Porras, Lennis Verónica; Calderón Serrano, Jorge AlfredoEn la actualidad, las empresas están adoptando nuevos enfoques, pues buscan llegar a sus clientes de forma personalizada para mejorar la calidad de sus servicios. Con el avance de la tecnología, cada día se genera grandes volúmenes de datos de forma digital. En este contexto, las redes sociales están adquiriendo un papel significativo, adoptándose como medios ampliamente usados para compartir diversas opiniones sobre un sin número de temas. Por tanto, estos datos se han convertido en una fuente valiosa para conocer los niveles de satisfacción de los usuarios. En el presente trabajo de titulación se realizará un estudio de mercado a través del análisis de opiniones expresadas vía Twitter sobre los servicios que ofrece Hoteles Decameron, mediante la aplicación de Minería de Datos y procesamiento de lenguaje natural (PLN), para determinar el grado de aceptación o rechazo hacia los servicios que ofrece la empresa. A través del análisis de sentimientos, se identificará si las opiniones son positivas, negativas o neutras. Además, se buscará palabras claves, que permitirán determinar niveles de acogida de los servicios ofrecidos por los Hoteles Decameron, dependiendo de los años de emisión de los Tweets y los segmentos geográficos de las personas que emitieron las opiniones. Asimismo, se realizará una encuesta de forma digital, con preguntas personalizadas sobre los servicios que ofrece Hoteles Decameron Mompiche, Hoteles Decameron Punta Centinela, Multivacaciones, estas opiniones permitirán complementar el análisis.Item Open Access Generación de Data warehouse para implementación de Business Intelligence que permita visualizar el comportamiento de los clientes y tomar medidas de acción comercial(PUCE - Quito, 2023-07) Reyes Mena, Francisco Xavier; Montero Bermúdez, Eduardo JoséEl presente trabajo tiene como finalidad el desarrollo de un data warehouse, que permita ser de ayuda para el área comercial en una empresa PYMES dedicada a la distribución de equipos de telecomunicaciones. En la actualidad que una empresa cuente con un sistema de data warehouse donde pueda centralizar sus datos, permite generar respuestas proactivas y agilizar los procesos involucrados con el área de ventas para la toma de decisiones. Respuestas a las preguntas tales como: ¿qué ítem se vende con mayor frecuencia, ¿cuál es la región con mayor cantidad de clientes?, son de vital importancia para establecer nuevos planes comerciales. Por medio de información de ventas almacenada en formato CSV, desde el año 2014 al 2022, se ha generado un proceso de limpieza de datos que establece las variables relevantes, así como el formato adecuado. Además, se ha incurrido en la depuración de la información, ya que la misma contaba con errores producidos por ingreso manual. El archivo ha generado una tabla de hechos, la cual se cargó a un motor de visualización para generar una aplicación que despliegue la información relevante considerando: las ventas, los clientes, medidas de control y análisis multivariado.Item Open Access Guía metodológica para la implementación de gobernanza de datos en la Empresa Universitaria de Salud EUS – EP de la Universidad de Cuenca(PUCE - Quito, 2022-12-31) Morales Rodríguez, Andrea Daniela; Loza Aguirre, Edison FernandoActualmente, los datos y la información generada por estos se reconocen como un activo empresarial de vital importancia tanto en organizaciones públicas como privadas. La información se convierte en la principal generadora de valor estratégico y es utilizada para responder a las necesidades institucionales identificadas en la cadena de valor y para la toma de decisiones. La Empresa Universitaria de Salud EUS-EP, fue constituida por la Universidad de Cuenca en mayo de 2017, para desarrollar capacidades relacionadas con el diseño, planificación, ejecución y operación de proyectos en salud pública. La EUS - EP es la responsable de la administración del Centro de Especialidades Médicas – CEM de la Universidad de Cuenca, que es un centro de atención médica ambulatoria de segundo nivel. Actualmente, la EUS-EP, no cuenta con una Gobernanza de Datos implementada, existen varios custodios de los datos, pero no han sido identificados formalmente, tampoco dispone de un gobierno de datos formalizado y aprobado. Sus procedimientos creados previamente ya no responden a la realidad actual de la empresa debido al crecimiento exponencial que han logrado en el último año. Con estos antecedentes, surge la necesidad de desarrollar una Guía Metodológica para implementar una Gobernanza de datos para la EUS-EP. Esta guía, adaptada a los requerimientos y realidades de la EUS, combinaría dos marcos de referencia reconocidas en el medio, como son el marco de referencia “DAMA” para la gestión de datos, y la metodología de “Mejores prácticas”.Item Open Access Impacto de la producción agrícola en el cambio climático en Suramérica: análisis comparativo entre 1990 y 2020(PUCE - Quito, 2024) Aizaga Ruiz, Carlos Miguel; Melgarejo Heredia, RafaelEl cambio climático ha emergido como uno de los desafíos más apremiantes del siglo XXI, afectando diversos aspectos de la vida en nuestro planeta. Con el paso de los años se han podido evidenciar estas afectaciones, en función de cambios dentro de diferentes variables que sirven como parámetro para hacer seguimiento al estatus del ambiente, variables como lo pueden ser la temperatura en tierra, las emisiones de gases de efecto invernadero, la frecuencia en cuanto a desastres naturales, entre otras. Una de las actividades antropogénicas que afectan el cambio climático es la producción agrícola. Se estima que la población mundial incremente en al menos un 20% para el año 2050, lo que al ser analizado en conjunto con las tendencias actuales de crecimiento de cara a los niveles de ingreso y de consumo, la producción agrícola tendría que crecer en al menos un 60% para satisfacer el aumento de la demanda prevista de alimentos (Smith & Gregory, 2012). Esta cifra de aumento necesario antes mencionado en la demanda mundial de alimentos va de la mano con al aumento poblacional y los cambios en los patrones alimentarios de la población, situación que viene ocurriendo en paralelo con el impacto continuo que genera el cambio climático sobre los sistemas alimentarios mundiales. Por lo anteriormente mencionado, es necesario analizar la afectación que genera la producción agrícola sobre las variables que más afectan al cambio climático, siendo en este caso la emisión de gases de efecto invernadero, con especial énfasis en los gases CH4 (metano) y N20 (óxido de nitrógeno). Buscando comprender la relación que tienen los cultivos en términos de su rendimiento por hectárea cultivada (Yield) y producción total en los niveles de emisiones que generan.