Tesis - Maestría en Biología Computacional

Entérate cómo entregar tus trabajos de titulación

Permanent URI for this collection

https://repositorio.puce.edu.ec/handle/123456789/540

Browse

0-9ABCDEFGHIJKLMNOPQRSTUVWXYZ

Now showing 1 - 20 of 72

Open Access
Ensamblaje y anotación del genoma de Vibrio spp. a partir de datos de secuenciación Nanopore (ONT) e Illumina
(PUCE - Quito, 2022) Gualdrón Niño, Javier Eduardo; González García, Laura Natalia
Antecedentes: Las especies bacterianas pertenecientes al género Vibrio son bacterias halófilas de tipo gramnegativas que habitan en entornos marinos, manglares, estuarios y por ende en el sistema digestivo de los crustáceos. Este proyecto tiene como objetivo generar un pipeline que permita la limpieza, ensamblaje, pulido y anotación funcional e identificación a nivel de especie de lecturas crudas para el género Vibrio spp. obtenidas a través de secuenciación ONT e Illumina, usando diversas herramientas bioinformáticas de código abierto disponible para GNU/Linux. Métodos: Se realizó una investigación de tipo experimental con datos secundarios extraídos del Centro Nacional para la Información Biotecnológica (NCBI, por sus siglas en inglés) con número de accesión SRR21422415 (Vibrio spp CCB-PB317 Nanopore) y SRR21422416 (Vibrio spp CCB-PB317 Illumina). La evaluación de calidad se realizó mediante Nanoplot y FastQC respectivamente, a la muestra SRR21422415 se le aplicó una limpieza de los datos con Porechop. Posteriormente se realizó el ensamblaje de los datos limpios de Nanopore con los ensambladores Canu y Flye, los cuales fueron evaluados usando QUAST y BUSCO, seleccionando así el mejor ensamblaje. Se propuso mejorar el ensamblaje obtenido de Nanopore haciendo un pulido con los datos de Illumina, empezando con un mapeo mediante Bowtie2 e indexando con Samtools, los cuales sirvieron de entrada para Pilon. Una vez completado el proceso de pulido se procedió a evaluar el ensamblaje con QUAST y BUSCO. Todos los procesos mencionados fueron procesados en un entorno GNU/Linux a través de consola y usando diversos ambientes de Anaconda. Finalmente, el ensamblaje final fue ingresado en el Centro de Recursos de Bioinformática Bacteriana y Viral (BV-BRC, por sus siglas en inglés) para realizar el Análisis Integral del Genoma (CGA, por sus siglas en inglés) el cual comprende detalles del genoma ensamblado, anotación funcional, anotación proteica, análisis de subsistemas, genes especiales, genes anotados relacionados con mecanismos de resistencia antimicrobiana (AMR) y un árbol filogenético que permite ubicar el genoma con el más cercano. Resultados: El genoma de Vibrio fue ensamblado a partir de las lecturas obtenidas de bases de datos públicas utilizando los ensambladores de novo Canu y Flye. Evaluamos la calidad de los ensamblajes mediante QUAST obteniendo las siguientes estadísticas para Canu (contigs=8, contig más largo=3,075,685 pb, total longitud=5,196,194 pb, N50=3,075,685, %GC=44.92) y Flye (contigs=4, contig más largo=3,118,351 pb, total longitud=5,175,891 pb, N50=3,118,351, %GC=44.87). Adicionalmente, evaluamos la integridad de los genes ensamblados mediante BUSCO y se obtuvo para Canu 81.5% y Flye 91.4% de genes completos (C) identificados en el dataset vibrionales_odb10 de BUSCO. Observamos mejores estadísticas en las dos herramientas utilizando el ensamblaje realizado con Flye, el cual se procedió a realizar el proceso de pulido (polishing) mediante lecturas de Illumina. Se evaluó y comparó la calidad del ensamblaje de Flye pulido nuevamente con QUAST (contigs=4, contig más largo=3,118,981 pb, total longitud=5,176,947 pb, N50=3,118,981, %GC=44.87, #Ns=0) y al evaluar la integridad de los genes ensamblados mediante BUSCO se obtuvo un 100.0% de genes altamente conservados de categoría completos (C) identificados en el dataset vibrionales_odb10 de BUSCO, reflejando una mejora significativa al comparar el ensamblaje de Flye sin pulir con el mismo ensamblaje posterior al proceso de pulido. Al ingresar el ensamblaje de Flye pulido al BV-BRC y realizar el Análisis Integral del Genoma (CGA), se obtuvo que el genoma analizado está constituido por 4 contigs el primero con una longitud de 3,118,981 pb (3,1 Mb) y %GC=44.72 el cual fue identificado como el cromosoma I grande, el segundo con una longitud de 1,831,277 pb (1,8 Mb) y %GC=44.95 el cual fue identificado como el cromosoma II pequeño, estos cromosomas son característicos del género Vibrio spp. Además, se identificaron dos contigs pequeños de 48,036 pb (48 Kb), %GC=46.45 y 178,653 pb (178 Kb), %GC=46.21 respectivamente los cuales corresponden a plásmidos. En la anotación del genoma se obtuvieron 4791 CDS, 125 ARNt, 100 regiones repetitivas, 33 ARNr, 1112 proteínas hipotéticas, 1086 proteínas según la asignación Enzyme Commission Number (EC number), 905 proteínas con asignación Gene Ontology (GO) y 4648 proteínas con asignación de familia de género cruzado por PATRIC (PGfam). En el caso de genes especiales el CGA anotó un total de 44 genes relacionados con mecanismos de resistencia antimicrobiana, 40 genes relacionados con posibles objetivos farmacológicos, 64 genes transportadores y 114 genes relacionados con factores de virulencia, finalmente el Análisis Integral de Genoma determinó que por medio de un análisis filogenético que la especie más cercana a nuestro genoma corresponde a Vibrio alginolyticus. Conclusiones: El desarrollo exponencial de los últimos años de las tecnologías de secuenciación masiva permite en la actualidad obtener millones de secuencias de ADN a una gran velocidad y un costo cada vez menor, lo que genera una elevada cantidad de datos crudos en diversas bases de datos, entre ellas el Sequence Read Archive (SRA, por sus siglas en inglés) del NCBI. Por tal motivo el diseño de pipelines (tuberías) para el análisis de dichos datos que permita extraer la mayor cantidad de información útil de dichas secuencias prácticamente sin costo alguno se convierte en una herramienta poderosa en la biología computacional. Este pipeline diseñado para bacterias permite realizar ensamblajes de datos crudos obtenidos con Nanopore con dos de los mejores ensambladores de novo actualmente disponible Canu y Flye, en este caso con mejor desempeño el ensamblaje generado por Flye, el cual posterior al proceso de pulido con datos crudos de illumina mejoró sustancialmente, lo cual es crucial si se desea realizar un análisis de anotación funcional ya que la misma depende de la integridad y calidad del ensamblaje. Logramos identificar que nuestra muestra corresponde a Vibrio alginolyticus con una estructura genómica constituida por un cromosoma I grande y un cromosoma II pequeño, siendo común para el género, junto con dos regiones pequeñas que corresponden a plásmidos. Adicionalmente se evidencia la capacidad patogénica de la especie analizada por la cantidad de genes anotados relacionados con factores de virulencia y mecanismos de resistencia antimicrobiana.
Open Access
Variabilidad genética de la región de la hemaglutinina del virus de influenza H3 en el Ecuador 2015-2020
(PUCE - Quito, 2022) Bruno Caicedo, Alfredo; Avelar Rivas, Jesús Abraham
Antecedentes: Los virus de Influenza cada año ocasionan entre 291.000 y 645.000 muertes a nivel mundial y los casos de Influenza asociados a fallecimientos son generalmente más elevados los años con predominio de circulación de A(H3N2). Este subtipo tiene una alta variabilidad genética que genera una constante evolución dentro de los linajes a lo largo del tiempo y el remplazo periódico de clados circulantes en los países. Por este motivo, se requiere una vigilancia genómica, así como una actualización y revisión anual de la formulación de la vacuna. Métodos: El objetivo general de la presente investigación es analizar la variabilidad genética de la región hemaglutinina del subtipo de Influenza H3 en el Ecuador. Para esto, el primer paso fue seleccionar secuencias genéticas de virus procedentes de Ecuador a partir de la base de datos GISAID que fueron alineadas mediante el uso de herramientas de bioinformáticas como el MEGA XI, Bioedit y Nextclade. Con el fin de estudiar la variabilidad, así como las relaciones filogenéticas entre los virus de Influenza H3N2 identificados, se utilizó el programa MEGA 11 y Nextstrain. Para describir la historia evolutiva del árbol filogenético se seleccionó el método de Neighbor-Joining y las herramientas utilizadas para establecer las diferencias de residuos de aminoácidos fueron los programas, AA dif y Count GS; los análisis estadísticos, figuras y manejo de base de datos fueron realizados mediante los programas de Microsoft Excel, R Studio y Matlab. Resultados: Entre las secuencias analizadas de Ecuador existió una alta variabilidad genética del subtipo H3 y co-circulación de varios clados/subclados en el período comprendido del 2015 al 2019 lo que podría afectar en el nivel de concordancia de clados circulantes en el país y el clado de la cepa vacunal recomendada. Sin embargo, entre los años 2021 y 2022, la proceso de diversidad genética fue menor y la mayoría de secuencias pertenecían principalmente a un subclado genético el 3C.2a1b.2a.2. Esto probablemente ocurrió debido a la la pandemia del COVID-19 y las medidas de contención que limitaban la transmisión del virus. La presencia de un solo subclado predominante en los años 2021 - 2022, pudo favorecer las estrategias de prevención, considerando que la vacuna y los clados genéticos del virus del Ecuador se encontraban genéticamente relacionados.
Open Access
Identificación de péptidos antimicrobianos y antifúngicos involucradas en la respuesta inmune en Drosophila mesophragmatica
(PUCE - Quito, 2022) Cabrera Ruiz, Franco Stelios
Los insectos son el grupo más diverso de los artrópodos ocupando al menos el 75% del total de especies descritas (Behura, 2015), incluyen organismos carnívoros, detrívoros, hervívoros y parásitos; los cuales pueden ocupar diversos ecosistemas (Thomas et al., 2020). Los insectos están expuestos a varios organismos como hongos, bacterias y virus que pueden infectar su cavidad interna u homocele (Siva, Morett y Rolff, 2005) (Vega y Kaya, 2012), por lo que han desarrollado estrategias para defenderse de factores patógenos (Hanson, Hamilton y Perlman, 2016). El primer mecanismo de defensa se basa en la conducta, evitando acercarse a poblaciones infectadas, sin embargo, este mecanismo no es totalmente efectivo y necesitan de una protección externa. La cutícula es una estructura quitinosa que forma parte del exoesqueleto de los insectos y actúa como segundo filtro para evitar la infección de patógenos (Siva, Morett y Rolff, 2005). No obstante, los patógenos pueden ingresar a través de heridas o el tracto digestivo al homocele, causando una respuesta inmune de las células inmunitarias que en el caso de los insectos son conocidas como hemocitos, estas células forman parte del último mecanismo y más eficaz contra infecciones de todo tipo (Hillyer, 2016).
Open Access
“Aplicación de métodos bioinformáticos para identificar endófitos de la familia Burkholderiaceae en hojas de especies de la familia Rubiaceae a partir de datos NGS”
(PUCE - Quito, 2023) Méndez Silva, Gabriela Inés; Guyot, Romain A.
Las especies vegetales en entornos naturales y agrícolas están continuamente expuestas a una gran cantidad de microorganismos, formando diferentes tipos de interacciones plantas-bacterias, como con las bacterias endófitas de la familia Burkholderiaceae. En la familia Rubiaceae se ha reportado actualmente el mayor número registrado de especies que se caracterizan por la nodulación en las hojas, sin embargo, son pocos los estudios de las bacterias endófitas no-nodulares de la familia Burkholderiaceae. Dado la dificultad en la identificación de microorganismos endófitos, se aplican técnicas de secuenciación para su estudio; y es por ello que se vuelve importante desarrollar herramientas bioinformáticas para detectar y estudiar endófitos bacterianos a partir de datos obtenidos de análisis metagenómicos por tecnologías de secuenciación masiva. En este estudio se desarrolló un pipeline con diferentes herramientas bioinformáticas para detectar y clasificar endófitos (especies de la familia Burkholderiaceae) de muestras de hojas de diferentes géneros de la Familia Rubiaceae (Coffea, Vangeria y Pavetta), por su importancia económica, principalmente del género Coffea, del cual se cultiva comercialmente el café. Se utilizó secuencias obtenidas de tecnologias de nueva generación (NGS) tipo Illumina pareados. Para probar la eficacia del pipeline desarrollado se utilizó como controles positivos muestras del género Tricalysia (Rubiaceae). Como resultados se detectó la presencia de Paraburkholderia phenoliruptrix en el género Vangeria; Caballeronia ptereochtonis y Candidatus Burkholderia schumannianae en Pavetta; sin embargo, no se detectó la presencia de Burkholderia en el género Coffea. Estos resultados podrían ser la base para posteriormente comprender de mejor manera las interacciones entre la planta y las bacterias de la familia Burkholderiaceae.
Open Access
Ensamblaje y anotación del genoma de Dysgonomonas sp. a partir de datos metagenómicos del tracto digestivo de la mosca soldado Hermetia Illucens
(PUCE - Quito, 2023) Salazar Arias, Mayra Jaqueline; Flores Flor, Francisco Javier
El aumento de la población está directamente relacionada con el incremento de la contaminación generada por residuos sólidos, debido a sus altas tasas de consumo y generación de desperdicios, los cuales no tienen una gestión adecuada y esto conlleva a problemas ambientales, sociales y de salud pública. Cada año se producen 1300 millones de toneladas de residuos a nivel mundial, de los cuales el 13.5% es reciclado y el 5.5% sirven de abonos, en Ecuador la producción semanal de basura es de 58.829 toneladas, de los cuales el 20% es tratado, el 14% es reciclado, quedando la diferencia en situaciones inapropiadas de descarte, dentro de los mayores contaminantes, se encuentran los residuos plásticos, que son un grave problema medio ambiental.En busca de soluciones a esta problemática, se ha propuesto la bioconversión de residuos a través de la mosca soldado negra Hermetia illucens (BSF), considerando que es un insecto que durante su etapa larvaria tiene la capacidad de degradación de residuos orgánicos y que la bioconversión de desechos guiada por insectos, representa procesos exitosos de biorremediación sostenible, es así que este trabajo de titulación tiene como objetivo ensamblar y anotar el genoma de Dysgonomonas sp. a partir de datos metagenómicos del tracto digestivo de la mosca soldado negra Hermetia Illucens, con la finalidad de buscar genes de interés y/o rutas metabólicas que estén vinculadas con la degradación de microplásticos de polietileno (PE) y poliestireno (PS).Se realizó el análisis de calidad mediante la herramienta FastQC y el recorte de las secuencias de baja calidad en Trimmomatic para posteriormente eliminar las secuencias del hospedero en bash de Linux. Los datos de salida, en formato FastQ, fueron analizados en Kbase acorde a la narrativa 33233 para el ensamblaje y la anotación del genoma, producto de este proceso, se obtuvo la clasificación taxonómica del organismo para el BIN seleccionado 004, por presentar mayor integridad y ausencia de contaminación en la secuencia.Mediante RAST y BV-BRC se obtuvo la siguiente clasificación taxonómica Dominio Bacteria, Filo Bacteroidota, Clase Bacteroidia, orden Bacteroidales, Familia Dysgonomonadaceae, Género Dysgonomonas, sin poder llegar a determinar especie, empleando Species Tree y BV-BRC se realizó la construcción de árboles filogenéticos, de la cual se observó que Dysgonomonas capnocytophagoides guardaba estrecha relación con el bin trabajado.De la búsqueda de genes y rutas metabólicas de interés, Dysgonomonas sp. presenta rutas metabólicas para la fermentación de la glucosa llamada EntnerDoudoroff, rutas metabólicas de sulfatos, carbohidratos y nitrógeno, y el ciclo de Krebs, adicionalmente se encuentra relacionada con la degradación de αgalactosas lo cual permite la degradación de carbohidratos vegetales. En cuanto a la cadena de transporte de energía, de observa la de citocromo bd ubiquinol oxidasa que participa en la cadena respiratoria de procariotas.
Open Access
“Desarrollo de algoritmos para optimizar la producción de licopeno en Yarrowia lipolytica usando herramientas computacionales de ingeniería metabólica en Python”
(PUCE - Quito, 2023) Quinga Socasi, Milton Giovanni; Avelar Rivas, Jesús Abraham
Recientemente la ingeniería metabólica ha tomado mayor importancia para mejorar los bioprocesos en los que están implicados microorganismo, su principal objetivo es optimizar la producción de sustancias químicas valiosas y que poseen un potencial de producción industrial. Llevando a cabo modificaciones puntuales de las vías metabólicas que se encuentran en un organismo para comprender y utilizar mejor las vías celulares para la transformación química. Debido a los diferentes parámetros que controlan el metabolismo tales como: alostería, abundancia de enzimas y modificaciones postraduccionales; el modelado metabólico se ha convertido en una herramienta valiosa para entender los mecanismos que gobiernan el fenotipo celular. Dentro de estos modelos, el modelo basado en restricciones es uno de los más utilizados y permite conocer el metabolismo celular basándose en conocimientos previos como las reacciones que ocurren, sus sustratos y productos (metabolitos), su estequiometría y reversibilidad. El Análisis de Balance de Flujos Metabólicos (FBA) es uno de los métodos basados en restricciones más utilizados para simular el metabolismo a escala del genoma. La producción a gran escala del licopeno, resulta importante debido a sus funciones terapéuticas, profilácticas y nutracéuticas. Y es que actualmente se ha demostrado su capacidad como agente quimiopreventivo del cáncer y que además posee efecto cardioprotector, antioxidante y antiinflamatorio. La fabricación de licopeno a partir de fuentes vegetales enfrenta problemas y es por ello que actualmente se han realizado grandes esfuerzos para diseñar microorganismos no carotenogénicos para la producción eficiente de licopeno. En esta investigación, se utilizaron algoritmos computacionales en Python para optimizar la producción de licopeno en la levadura Yarrowia lipolytica usando su modelo metabólica a escala del genoma (iYali4). Para la producción del carotenoide, se analizó la ruta del mevalonato a fin de convertir los productos de la ruta (IPP y DMAPP) en licopeno, usando para ello rutas nativas y heterólogas (genes CrtB y CrtI, de Pantoea ananatis). Los paquetes para análisis de ingeniería metabólica de Python Cameo y COBRApy. Para la optimización se usó los modelos basados en restricciones metabólicas: FBA y FVA. Se obtuvieron gráficos de planos de fase de fenotipo (Production envelopes) para visualizar distintas fases de crecimiento óptimo con un uso diferente de dos sustratos; oxígeno y nitrógeno. Además de visualizaciones en la herramienta web Fluxer de los principales flujos metabólicos obtenidos de la optimización. Los mejores resultados en la tasa de crecimiento, tasa de producción de licopeno y rendimiento de licopeno, se obtuvieron usando como par de aceptor/aceptor reducido a FAD/FADH2 y sobreexpresando los genes de la ruta del mevalonato; HMG1, MVD1 y EGR8. Obteniéndose una tasa de producción de licopeno de 0.0562 (mmol/gdcw/h). El modelo desarrollado en este trabajo se puede usar para guiar la ingeniería metabólica de Yarrowia lipolytica. Específicamente, sus predicciones computacionales facilitarán la producción sostenible de metabolitos de interés comercial como se demuestra aquí para el caso del licopeno.
Open Access
Uso de filogenómica para la identificación de proteínas asociadas a la ruta biosintética de alcaloides anticancerígenos en plantas
(PUCE - Quito, 2023) Rodríguez Pazmiño, Ángel Sebastián; Cervantes Pérez, Sergio Alan
Vinblastina y vincristina son anticancerígenos de gran importancia para la industria farmacéutica. Actualmente su proceso de obtención es altamente complejo y costoso debido, por una parte, a la baja concentración en la planta Catharanthus roseus, siendo este el único organismo en el cual se han encontrado. Por ello, se han intentado diversas estrategias biotecnológicas para inducir una mayor producción de estos fármacos a un menor costo. En este trabajo, utilizando criterios filogenómicos y diferentes herramientas bioinformáticas, se explora la potencial presencia de los alcaloides vinblastina y vincristina en un grupo de 72 plantas, usando como secuencias de referencia cuatro proteínas asociadas a la ruta de biosíntesis de estos alcaloides en la planta Catharanthus roseus. Un enfoque de investigación como el propuesto en este proyecto, podría sugerir su presencia en una especie de planta distinta; impulsando, posteriormente, investigaciones de “wet lab” que confirmen o descarten su existencia.
Open Access
Ensamblaje y anotación del genoma de Actinomyces sp. a partir de datos metagenómicos del tracto digestivo de la mosca soldado Hermetia illucens
(PUCE - Quito, 2023) Rodríguez Cervantes, Edison Geovanny; Flores Flor, Francisco Javier
El objetivo de este trabajo de investigación fue ensamblar y anotar el genoma de Actinomyces sp, a partir de datos metagenómicos del tracto digestivo de Hermetia illucens en estado larvario para buscar e identificar genes y rutas metabólicas de interés en el proceso de biotransformación de residuos sólidos.Para este trabajo se inició con la eliminación de lecturas del hospedero, se trabajó con los programas FastQC para el control de calidad de las lecturas, Trimmomatic para la limpieza de secuencias, Dedupe-BBMap para eliminación de datos duplicados, Bowtie2 y Samtools para eliminar la contaminación de la secuencia, Bedtools. Para el ensamblaje y la anotación del genoma se empleó la plataforma bioinformática KBase, se inició con el programa Kaiju para clasificación taxonómica, meta SPAdes, MEGA HIT, e IDBAUD, para el ensamblaje, KB para comparar resultados y determinar el mejor ensamblaje, para la agrupación (binning) de los contigs se empleö MaxBin2, MetaBAT2 y CONCOCT, la optimización de los grupos (bins) se realizó mediante DAS-Tool y la evaluación de la calidad de los grupos en CheckM. Se procedió con la extracción de un grupo de interés mediante BinUntil, finalmente la anotación del genoma se lo realizo en RAST. Para la búsqueda de genes y rutas metabólicas se utilizó DRAM.En los resultados se encontró que la muestra analizada tiene 41% de guanina y citocina; se muestra una presencia de Actinobacterias de 2% en la secuencia analizada, el mejor ensamblaje del metagenoma lo ejecutó metaSPAdes, y se logró optimizar 15 bins, el bin correspondiente a Actinomyces sp. fue el bin 8.En la búsqueda de rutas metabólicas con DRAM en el complejo de transporte de electrones Actinomyces muestra rustas metabólicas como la ruta de Embden-Meyerhoff y la ruta Entner-Doudoroff; así mismo presentó rutas para el metabolismo del nitrógeno, donde se transforma nitrito en nitrato y viceversa; este microorganismo puede ser de interés en la degradación de material con presencia de nitrógeno como pesticidas, y degradación de materia orgánica, así como en la producción de gas metano, no se pudo comprobar la presencia de genes que participen en la hidrolisis de PET dentro del genoma de Actinomyces sp.
Open Access
Caracterización estructural del gen homeobox abd-A de Drosophila melanogaster y su gen homeobox ortólogo HOXC6 en Homo sapiens
(PUCE - Quito, 2023) Serrano Delgado, Clara Yamilet; Vela Peralta, Doris Jimena
Los genes homeóticos (HOX), reguladores maestros, tienen en común una secuencia conservada de 180 pares de bases, llamada caja homeótica, codifican factores de transcripción específicos que desempeñan un papel importante en la morfogénesis y diferenciación celular durante el desarrollo, además se consideran factores de transcripción implicados en el desarrollo de varios tipos de cáncer. El objetivo de este estudio fue analizar las secuencias nucleotídicas de los genes ortólogos homeobox abd-A de Drosophila melanogaster y del gen HOXC6 (homeobox C6) en Homo sapiens. La investigación tuvo un enfoque cuantitativo, descriptivo, trasversal, observacional con aplicación de herramientas bioinformáticas; se analizó mediante Biopython información genética recuperada del National Center for Biotechnology Information (NCBI), además se utilizaron bases de datos como Ensembl, UniProt, y FlyBase. Los resultados de esta investigación determinaron que la longitud y composición nucleotídica de los genes analizados son diferentes con una supremacía del gen abd-A, además el gen HOXC6 se localizó en el cromosoma 12, mientras que el gen abd-A en el cromosoma 3, se determinó la presencia del homeodominio en ambas estructuras genéticas así como el motivo de unión al ADN y la proteína homeobox codificada, en conclusión, el estudio profundo de las estructuras genéticas a partir de herramientas bioinformáticas, permite una visión integral de su composición, nos lleva a determinar mutaciones genéticas y alteraciones en su expresión, permitiendo profundizar el conocimiento biológico y tomar decisiones acertadas para la prevención y tratamiento de diversas patologías.
Open Access
Comparación de herramientas de identificación de plásmidos
(PUCE - Quito, 2023) Terán Amores, Paulina Isabel; Flores Flor, Francisco Javier
El interés en el mundo microbiano y la emergencia de nuevas herramientas de biología molecular y bioinformática ha favorecido el desarrollo de la metagenómica y la plasmidómica. Estas tecnologías han permitido el descubrimiento de microorganismos no cultivables y secuencias pertenecientes a proteínas de interés con potenciales aplicaciones biotecnológicas. Algunas de estas secuencias que confieren ventajas evolutivas a los microorganismos están presentes fuera del cromosoma, en los plásmidos. Consecuentemente, es importante contar con estudios comparativos de las herramientas existentes para la predicción de los plásmidos en datos metagenómicos. El presente trabajo de titulación pretende explorar y comparar tres herramientas disponibles para la clasificación de secuencias metagenómicas: PlasFlow, SOURCEFINDER Y PlasmidHunter, las cuales se emplearon para la clasificación de contigs resultantes del ensamblado de metagenoma de planta in vitro y tumor de corona de planta adulta de Rosa sp. En el conjunto de datos analizado, PlasFlow reportó el mayor número de fragmentos de plásmidos (5041), seguido de SOURCEFINDER (2647) y PlasmidHunter (148). En contraste, PlasmidHunter reportó mayores precisiones (hasta 100 %) y exactitudes (99.86 %) mientras que PlasFlow tuvo las mayores sensibilidades (33.28 %). Las diferencias pueden atribuirse a la arquitectura de las herramientas y a los datos que fueron empleados para su entrenamiento.
Open Access
Identificación de marcadores para cáncer de próstata por medio de un análisis de expresión diferencial
(PUCE - Quito, 2023) Paredes Escobar, Michelle Marcela; Avelar Rivas, Jesús Abraham
El cáncer de próstata es el segundo cáncer con mayor incidencia en el mundo en hombres entre los 45 y 60 años. Debido a la alta tasa de falsos positivos que arroja la prueba de antígeno prostático, que conlleva a procedimiento invasivos y tratamientos innecesarios en displasias benignas, se vuelve imperante determinar biomarcadores de detección temprana y no invasivos. Gracias a los avances en la secuenciación de ARN el estudio del transcriptoma toma un papel relevante en la identificación de genes expresados diferencialmente con potencial para actuar como biomarcadores pronósticos o predictivos. En este trabajo se utilizaron datos de RNA-seq obtenidos de tejidos sanos y cancerosos publicados en bases de datos públicos con la finalidad de realizar un análisis de expresión diferencial y posteriormente realizar un análisis de enriquecimiento funcional para identificar las funciones metabólicas donde interfieren los genes diferencialmente expresados. Como resultado se obtuvo que las secuencias disponibles en el proyecto código de acceso GSE22260 de GEO mostraron tener poca o nula expresión diferencial, por lo que se descartó este set de datos del análisis y se optó por trabajar con las secuencias disponibles en el proyecto PRJEB2449 de la plataforma ENA. El análisis de expresión diferencial de genes de este conjunto de datos determinó que un total de 105 genes se expresaron diferencialmente. Además, el análisis de enriquecimiento funcional identificó que los genes sobre expresados se involucran en la síntesis de tubulina, mientras que los sub expresados en los procesos de adhesión celular. Los genes identificados en este trabajo pueden ser considerados en ensayos de validación de biomarcadores y generar pruebas de identificación de tejidos cancerosos.
Open Access
Obtención y caracterización del genoma de Agrobacterium tumefaciens a partir del metagenoma de tumores de rosa
(PUCE - Quito, 2023) Carrillo Fonseca, Denise Ariana; Flores Flor, Francisco Javier
Agrobacterium tumefaciens es una bacteria Gram negativa patógena que afecta a plantas, causante de la enfermedad de agalla de la corona en rosas. El Ecuador es reconocido mundialmente por su gran variedad de flores de exportación, entre ellas las rosas. Sin embargo, son pocos los estudios a nivel molecular relacionados con patógenos que causan enfermedades a esta planta. Es así como un enfoque de estudio metagenómico de tumores de agalla de corona permitirá ampliar el conocimiento relacionado con su estructura taxonómica y funcional. Por lo que el presente trabajo tuvo por objetivo aplicar herramientas de análisis metagenómico para la obtención y caracterización del genoma de Agrobacterium tumefaciens a partir del metagenoma de tumores de rosa. La composición taxonómica del metagenoma reveló que Pantoea, Agrobacterium, Pseudomonas y Sphingomonas fueron los géneros más abundantes y presentes de manera concurrente en ambas herramientas de clasificación. Sin embargo, a nivel de especie, se observaron divergencias en la asignación, aunque Pantoea agglomerans prevaleció como la especie más común en ambas. A partir del ensamblaje del metagenoma se obtuvo el genoma de P. agglomerans con una integridad del 100%, contaminación del 0.52% y un ANI del 98.49%. A nivel funcional el metagenoma presentó un total de 12351 CDSs, 7 tRNAs, 126 tRNAs y 2 tmRNAS. Por medio del mapeo del genoma de referencia de Agrobacterium tumefaciens contra las lecturas crudas, se ensambló el 0.861% del genoma, debido al limitado número de lecturas secuenciadas. A pesar de que no se recuperó por completo el genoma de A. tumefaciens, el organismo fue seleccionado como el más probable de causar tumores en la muestra. Considerando que, se recuperó la secuencia del plásmido Ti en un 69.23% y no se identificaron genes de virulencia para P. agglomerans.
Open Access
Uso de las herramientas seurat y clusterprofiler para la identificación y análisis funcional de tipos celulares presentes en muestras de tejido mamario a partir de datos single-cell.
(PUCE - Quito, 2023) Contreras Marcillo, Rebeca; Romero Carvajal, Marco Andrés
La heterogeneidad es una propiedad fundamental de los sistemas biológicos que les da ventajas adaptativas y funcionales. Hasta hace poco, las células de los tejidos habían sido estudiadas como poblaciones mediante las tecnologías de secuenciación obteniendo un promedio de los perfiles genómicos y transcriptómicos ignorando el aporte que tiene cada tipo de célula diferente en el comportamiento total de la población, tejido u organismo. Las tecnologías single-cell permiten obtener los perfiles moleculares de cada célula por separado capturando las diferencias entre las distintas células que componen el tejido. El primer paso para aprovechar estas tecnologías es la identificación y caracterización de tipos celulares para después poder compararlas entre diferentes condiciones biológicas y entender el efecto de estos tratamientos sobre cada tipo celular. Sin embargo, el proceso requiere mayor conocimiento de herramientas bioinformáticas lo que puede ser una limitante para los investigadores, por esto se han desarrollado una serie de marcos de trabajo como Seurat que son paquetes que contienen una serie de herramientas para realizar los pasos básicos de un análisis completo de single-cell:control de calidad, reducción de complejidad de los datos, agrupamiento de células, identificación de marcadores, por otro lado, clusterProfiler es un herramienta que permite extraer información de los marcadores obtenidos, pudiendo identificar los grupos formados y hacer un análisis funcional mediante diferentes pruebas de enriquecimiento y sobrerrepresentación. En este trabajo se utilizarán estas herramientas para identificar los tipos celulares presentes en el tejido mamario normal obtenidos de la base de datos GEO (GSE161529) pertenecientes al trabajo de Pal et al (2021).
Open Access
Análisis de la expresión diferencial y las vías de señalización involucradas en la hepatotoxicidad inducida por APAP a las 6 horas vs.24 horas en ratones
(PUCE - Quito, 2023) Rodríguez Marcano, María Gabriella; Vela Peralta, Doris Jimena
El acetaminofén (APAP), también conocido como paracetamol, es uno de los analgésicos más seguros y más comúnmente utilizados en el mundo para el tratamiento del dolor y la fiebre. Con frecuencia, el APAP ha estado implicado en sobredosis intencionales o no intencionales en las que puede causar daños graves como lesión hepática aguda e incluso insuficiencia hepática aguda. El único antídoto aprobado para uso clínico es la N acetilcisteína, la cual, sin embargo, no es efectiva una vez transcurridas 24 horas de la intoxicación, justamente el tiempo cuando generalmente se presentan los pacientes en los centros de salud. Por lo antes expuesto, se considera necesario encontrar nuevas moléculas con aplicación clínica que permitan tratar con efectividad la etapa tardía de la intoxicación (después de 24 horas en humanos). Para ello, es indispensable un mayor conocimiento sobre el mecanismo de acción del APAP, y este conocimiento incluye identificar los genes expresados diferencialmente y el análisis de enriquecimiento ontológico-funcional para la dilucidación de las vías involucradas en la toxicidad tardía. En el presente estudio se realizó una comparación de la expresión diferencial de genes en un modelo de ratón en las etapas temprana vs tardía para identificar los genes expresados diferencialmente (DEG) entre los grupos control, APAP_6horas (toxicidad temprana en ratón) y APAP_24horas (toxicidad tardía en ratón). El análisis se realizó mediante a herramienta en línea GEO2R y luego se aplicó el análisis de enriquecimiento de la Enciclopedia de genes y genomas de Kyoto (KEGG) para dilucidar las vías de señalización relevantes de los DEG involucrados, empleando la base datos para anotación DAVID. Los genes relevantes identificados diferencialmente entre APAP_6horas y APAP_24horas (Btg2, Ier2, Gdf15, Cyp2c37, Serpine1, S100a8, Pald1///Thbs1 y Fos) se encuentran relacionados con la regeneración temprana, estrés oxidativo e inicio de la atenuación del daño celular. Mientras que la vía principal involucrada en el análisis de enriquecimiento de genes fue el de la citoquina IL-17 por lo que podría pensarse en esta interleuquina como un posible blanco terapéutico para esta fase tardía de la intoxicación. Se sugiere complementar este estudio con una generación y análisis de una red de interacción proteína-proteína (PPI) a fin de interpretar los mecanismos moleculares diferenciales de las actividades celulares clave en la toxicidad por APAP en la etapa tardía.
Open Access
Caracterización molecular de los virus del síndrome respiratorio y reproductivo porcino (PRRSV) aislados en Ecuador entre 2017 y 2019
(PUCE - Quito, 2023) Bustillos Huilca, Roberto Claudio; Chávez Viteri, Daniel Eduardo
El virus del síndrome reproductivo y respiratorio porcino (PRRSV) es el agente causal de una de las enfermedades infecciosas económicamente más importantes de la producción porcina en todo el mundo. La variación genética del PRRSV hace que el análisis epidemiológico y molecular de los virus circulantes sea muy importante para las actividades de vigilancia en un brote de la enfermedad. El monitoreo de los virus PRRS es necesario para explicar el origen de los virus encontrados, ya sea interna o externamente al país. No se ha publicado ningún estudio epidemiológico o molecular sobre los virus PRRS circulantes en el Ecuador. Por lo tanto, el objetivo de este estudio es investigar los virus PRRS circulantes en el Ecuador en 2017, 2018 y 2019 a nivel molecular mediante la secuenciación de ORF5. Los resultados demuestran que las 9 cepas de PRRSV pertenecen a PRRSV-2, pero la diversidad entre cepas es alta, según la identidad de nucleótidos y los árboles filogenéticos. Las secuencias más similares a los virus de Ecuador provienen de virus presentes en Norte América y Perú. Esta información sugiere que el PRRSV ingresó en dos eventos independientes al país a través de múltiples fuentes y rutas de transmisión, lo que debe ser considerado para desarrollar estrategias de prevención y control, y así proteger la salud porcina del país.
Open Access
Establecimiento de la diversidad global, patrones de distribución espacio - temporal y análisis filogenético basado en el gen VP2 de longitud completa de los serotipos del virus de La Lengua Azul
(PUCE - Quito, 2023) Maldonado Orbe, Rubén Alexander; Montúfar Galárraga, Rommel Josélo
La lengua azul (BT) es una enfermedad viral infecciosa, transmitida por vectores, la cual afecta a la especie bovina, caprina, ovina, entre otra. La distribución mundial de la enfermedad está determinada en por la distribución de los vectores competentes, de esta manera se han identificado al veinte y ocho (28) serotipos diferentes Los brotes del virus de la lengua azul (BTV) son responsables de pérdidas económicas mundiales, así en los países en los que la lengua azul es endémica, el impacto se centra principalmente en la pérdida de comercio debido a las restricciones y a los costes de vigilancia, pruebas sanitarias y vacunación, por lo que comprender la epidemiología evolutiva global del virus es fundamental para diseñar programas de vigilancia y control. En el presente estudio se evaluaron modelos filodinámicos para cuantificar las características evolutivas, los orígenes espaciotemporales y la dinámica de transmisión del virus en todo el mundo. De esta manera, se obtuvieron secuencias completas del gen S2 de la proteína viral VP2 del BTV reportadas en GenBank y aisladas en varios países en el mundo entre 1900 y 2021, se realizó la inferencia de árboles filogenéticos basada en la máxima verosimilitud, se evaluaron diferentes modelos de reloj molecular estimando sus verosimilitudes marginales utilizando simulaciones Bayesianas de Markov Chain Monte Carlo (MCMC), las priorizaciones paramétricas seleccionadas incluyeron el tamaño de población constante, mientras que las priorizaciones no paramétricas evaluadas fueron la Bayesiana Skygrid y la GMRF Bayesiana Skyride, finalmente se evaluó la convergencia de los parámetros posteriores y la fuerza de la señal temporal para así inferir los orígenes geográficos globales del BTV y sus significativas rutas de dispersión entre países infectados utilizando métodos de reconstrucción ancestral de estados discretos. Los modelos apuntaron a Sudáfrica y Australia, como paises ancestrales probables para la aparición y dispersión del virus de lengua azul por todo el mundo hace aproximadamente 500 años. Sin embargo, la mayor diversificación y dispersión del BTV coincidió con con el inicio del comercio transcontinental de ganado a partir de la década de 1850. El presente análisis descubrió un notable círculo de rutas de dispersión significativas e intensas entre varios países en diferentes continentes lo cual puede en muchos casos estar relacionada a la abundancia de múltiples vectores. Estos resultados proporcionan nuevos conocimientos exhaustivos sobre la epidemiología mundial del BTV, que posteriormente pueden utilizarse para orientar estrategias de control y vigilancia en todo el mundo.
Open Access
Comparación de dos métodos para analizar single-cell transcriptomics en plantas
(PUCE - Quito, 2023) Quevedo Tumailli, Viviana Fernanda; Cervantes Pérez, Sergio Alan
La secuenciación de ARN en el campo de la investigación genética, ha permitido comprender, entre muchas cosas, la función de los genes, la regulación génica, la expresión de los genes y los mecanismos de biología molecular. La expresión génica en plantas de la especie Arabidopsis thaliana permite estudiar los genes que se activan o desactivan para producir proteínas y otras moléculas que son esenciales para el crecimiento, desarrollo y respuesta a su entorno. Sin embargo, a pesar de contar con una gran cantidad de datos de expresión génica en bases de datos de libre acceso, la limitante común es la falta de profundidad en la comprensión de la expresión génica. El estudio de la expresión génica se ha realizado en las últimas décadas mediante microarreglos de ARN y luego mediante secuenciación de ARN para órganos o tejidos pero no con la resolución del nivel celular. La transcriptómica unicelular permite un análisis más detallado en comparación con la transcriptómica a gran escala, permitiendo analizar las diferencias en la expresión génica entre las células individuales. Uno de los métodos más utilizados para la transcriptómica unicelular es el Método de Protoplastos, que implica la degradación enzimática de la membrana celular, pero se ha visto limitada por la rigidez de la pared celular y el uso de tratamientos enzimáticos agresivos, como alternativa se encuentra el método llamado aislamiento de núcleos que permite separar y extraer los núcleos celulares directamente. En este sentido, se desconoce el impacto de los métodos utilizados en los resultados de transcriptómica unicelular en plantas. En este trabajo, la idea fue comparar la transcriptómica unicelular en condiciones similares de estos 2 métodos mencionados para evaluar las diferencias. Se usaron 5 muestras descargadas de la base de datos GSE155304 del NCBI, 2 muestras pr1 y pr2 para el Método Protoplastos y 3 muestras mr1, mr2 y mr3 para el aislamiento de núcleos con un promedio de células de 4316 y 3198 respectivamente.El presente trabajo ha permitido estudiar diferentes Métodos entre Protoplastos y aislamiento de núcleos para transcriptómica unicelular en plantas. Los conjuntos de datos procesados dan como resultado datos más refinados y de mayor calidad. En los dos métodos se observó una fuerte correlación entre el número de genes y el número de moléculas IMU, ya que los datos son consistentes y confiables. Se observó agrupaciones celulares similares en los métodos individuales, pero diferencias notables al integrar los datos de ambos métodos. El método UMAP se utilizó para reducir la dimensionalidad de los datos y el método de agrupación de Lovaina para identificar agrupaciones de interés. Ambos métodos mostraron resultados muy similares y confiables, por lo que la recomendación sería utilizar el método que más se adecue al tejido/planta de interés.
Open Access
Desarrollo de un Algoritmo para Clasificar Retrotransposones con LTR en Plantas
(PUCE - Quito, 2023) Benalcázar Vayas, Tatiana Paola; Guyot, Romain
Los elementos transponibles tienen un rol importante en la evolución genética y son los principales componentes de genomas eucariotas, siendo los retrotransposones de larga terminal los más abundantes en genomas de plantas, por esta razón su identificación es un paso crítico para la anotación y el estudio de la regulación de la expresión genética. Se desarrolló una herramienta computacional automatizada, denominada Arthur_LTRanalizer, para identificar y clasificar retrotransposones LTR, en base a sus dominios proteicos, aplicando el método de perfiles de Modelos Ocultos de Markov (HMM). Esta herramienta fue implementada en Python junto con anaconda, cuenta con la función de multiprocesamiento y es capaz de clasificar retrotransposones LTR a nivel del linaje por medio de bases de datos de perfiles de dominios proteicos de elementos transponibles de REXdb y GyDB. Los resultados obtenidos de la búsqueda contra perfiles HMM fueron filtrados y aquellos con mayor puntaje se guardaron en archivos de salida en formato GFF y TSV, el programa retorna un archivo con secuencias anotadas de nucleótidos y aminoácidos, las cuales pueden ser usadas en análisis comparativos subsecuentes y filogenéticos. El rendimiento de la herramienta se comparó con: LTR_retriever, LTRclassifier y TEsorter, usando dos bases de datos curadas de elementos transponibles del arroz y del maíz, con lo que se concluyó que Arthur_LTRanalizer es comparable a herramientas exitosas como LTR_retriever, es confiable, eficiente, exacto, usa un algoritmo de procesamiento rápido y es fácil de usar gracias a su interfaz gráfica.
Open Access
“Análisis comparativo del genoma de los diferentes sublinajes de la variante Ómicron de SARS-COV-2 en Ecuador”
(PUCE - Quito, 2023) Herrera Yela, Manuel Andrés; Avelar Rivas, Jesús Abraham
El virus del SARS-CoV-2 tiene la capacidad de acumular mutaciones en su genoma, lo que puede dar lugar a la formación de sublinajes y variantes. Desde el año 2022, la única variante circulante ha sido la variante Ómicron, en la cual se han descrito mutaciones principalmente en la glicoproteína Spike. Varias de estas mutaciones le confieren una mayor capacidad de transmisibilidad y evasión de la respuesta inmune. Sin embargo, en Ecuador aún no se ha descrito la diversidad genética ni las consecuencias de las mutaciones de esta Variante. En este estudio, se determinaron los clados y sublinajes de Ómicron que están circulando en Ecuador. Además, se identificaron las mutaciones puntuales (SNPs) y los cambios de aminoácidos asociados. También se evaluó la importancia biológica de estas mutaciones y su impacto en la transmisibilidad, virulencia y capacidad de evadir la respuesta inmune del virus. Para llevar a cabo este análisis, se utilizaron varias herramientas bioinformáticas, como Nextclade, Outbreak.info, Snipit, CoVsurver e IQTree. En la base de datos de GISAID, se encontraron 5098 secuencias de Ómicron de Ecuador hasta el 31 de enero de 2023. Se identificaron nueve clados y 160 sublinajes en Ecuador. Los cuales han evolucionado dinámicamente a lo largo de 2022, y que nuevos sublinajes están desplazando a otros con nuevas mutaciones de relevancia epidemiológica. El análisis también reveló que existen 37 SNPs comunes entre todos los sublinajes analizados, los cuales causan 19 cambios de aminoácidos en la glicoproteína Spike. Seis de estas mutaciones son de interés epidemiológico y 13 están relacionadas con la unión a receptores de la célula hospedera o la antigenicidad, lo que incrementa la transmisibilidad del virus. Se identificó la mutación T19I, considerada un mecanismo de escape inmunitario, presente en los sublinajes BA.2*, BA.5*, BQ.1*, BQ.1.1.13, XBB.1 y XBB.1.5. El análisis filogenético revela que los sublinajes BA.1*, BA.2* y BA.5* han evolucionado de forma independiente, aunque comparten un ancestro común. Por otro lado, los sublinajes XBB.1 y XBB.1.5 son el resultado de la recombinación de dos sublinajes de BA.2*, mientras que BQ.1* y BQ.1.1.13 han evolucionado a partir del sublinaje BA.5*. Estos resultados resaltan la importancia de continuar vigilando la evolución del virus en Ecuador.
Open Access
Identificación de elementos genéticos transponibles de clase II en el genoma de Drosophila amaguana (Diptera, Drosophilidae)
(PUCE - Quito, 2023) Coba Males, Manuel Alejandro; Vela Peralta, Doris Jimena
La diversidad y abundancia de elementos genéticos móviles en la mayoría de los genomas eucariotas han hecho que estas secuencias de DNA moderadamente repetitivo sean importantes para el estudio y compresión de algunos mecanismos de regulación génica y variabilidad genética en muchas especies. La investigación tiene la finalidad de identificar de novo, clasificar y caracterizar los elementos transponibles (ETs) clase II presentes en el genoma de Drosophila amaguana, una especie endémica neotropical que habita en los bosques andinos del Ecuador. Las secuencias de elementos móviles se anotaron estructuralmente a partir del genoma ensamblado (455.5 Mb) de D. amaguana utilizando el pipeline The Extensive De Novo TE Annotator (EDTA), el cual agrupa programas con distintos algoritmos para una identificación de novo de elementos transponibles en todo el genoma. La caracterización de un elemento completo en cada superfamilia de transposones TIR (una subclase de ETs de DNA de repetición terminal invertida) se realizó a través de dot plots con DOTTER, y la anotación funcional se llevó a cabo con Artemis. Se encontró que el 11.87 % del genoma de D. amaguana corresponde de elementos transponibles, del cual el 7.87 % pertenece a transposones de DNA, incluyendo ocho superfamilias como Mutator, CACTA, y, Helitron, siendo estas tres las que mostraron mayor abundancia en el genoma de D. amaguana, a ellas se suma la presencia de superfamilias PIF/Harbinger, Tc1/Mariner, hAT, Maverick, y, elementos P. Estos resultados constituyen el primer reporte sobre el contenido de elementos móviles de una especie neotropical en el Ecuador, y serán el punto de partida de análisis posteriores para comprender los procesos adaptativos y evolutivos del grupo mesophragmatica en los bosques andinos.

Browse

Browsing Tesis - Maestría en Biología Computacional by Issue Date

Results Per Page

Sort Options