Software para web scraping desde las APIs de repositorios de código
| dc.contributor.author | Pianchiche Delacruz, Wilmer Fabián | |
| dc.date.accessioned | 05/12/2023 10:04 | |
| dc.date.available | 05/12/2023 10:04 | |
| dc.date.issued | 2021 | |
| dc.description | Tesis previa obtención del título de Ingeniero/a en Sistemas y Computación | es |
| dc.description.abstract | La presente investigación fue realizada con el propósito de desarrollar un software para extraer información de forma automática desde la API de un repositorio de código utilizando la técnica de web scraping. El repositorio de código estudiado o usado en este proyecto es el GitHub debido a su amplia popularidad gracias a los distintos desarrolladores de diversas partes del mundo. Con respecto al tema se llevó a cabo una serie de investigaciones bibliográfica o documental en principales bibliotecas científicas virtuales con el fin de establecer definiciones sobre el tema en estudio, de la misma manera sus características, las distintas formas y herramientas disponibles para esta técnica, haciendo hincapié en sus posibles aplicaciones en distintos ámbitos. Además, de cada una de las herramientas obtenidas se realizó tablas de comparación para así poder elegir las más convenientes. Con los datos obtenidos, se pudo estudiar generando conocimientos a través de análisis de estos datos, asimismo el estudio permitió conocer los proyectos o repositorios más activos o con más contribuidores de GitHub. En este sentido, la aplicación fue desarrollada con el lenguaje de programación Python bajo el patrón de diseño MTV (Model Template View), utilizando como marco de desarrollo (Framework) Django y se utilizó base de datos NoSQL como MongoDB y como editor de código (IDE) se utilizó PyCharm en su versión Community. Con todo ello, la aplicación es capaz de soportar grandes cantidades de información, desde su recolección (Web Scraping desde la API), almacenamiento, hasta su posterior consulta o búsqueda desde la vista hacia la base de datos. Para determinar la factibilidad de Web Scraping como herramienta para extraer información de forma automática aplicada en GitHub fue necesario realizar diferentes pruebas según las distintas técnicas disponibles, es decir, las pruebas se realizaron a nivel de librerías que son ajenos a la plataforma, y asimismo se realizó a nivel del API, siendo este el objetivo principal del estudio, por lo cual, a nivel de librerías o framework como Scrapy, simplemente se utilizó con fines prácticos, no obstante, en este estudio también se describe sobre esta poderosa librería para el ámbito de Web Scraping | |
| dc.identifier.citation | IS.216 | es |
| dc.identifier.uri | https://repositorio.puce.edu.ec/handle/123456789/38011 | |
| dc.language.iso | es | |
| dc.publisher | PUCE - Esmeraldas | |
| dc.subject | Raspado web | |
| dc.subject | APIs | |
| dc.subject | Repositorios de código | |
| dc.subject | GitHub | |
| dc.title | Software para web scraping desde las APIs de repositorios de código |
