Software para web scraping desde las APIs de repositorios de código

Pianchiche Delacruz, Wilmer Fabián

Software para web scraping desde las APIs de repositorios de código

dc.contributor.author	Pianchiche Delacruz, Wilmer Fabián
dc.date.accessioned	05/12/2023 10:04
dc.date.available	05/12/2023 10:04
dc.date.issued	2021
dc.description	Tesis previa obtención del título de Ingeniero/a en Sistemas y Computación	es
dc.description.abstract	La presente investigación fue realizada con el propósito de desarrollar un software para extraer información de forma automática desde la API de un repositorio de código utilizando la técnica de web scraping. El repositorio de código estudiado o usado en este proyecto es el GitHub debido a su amplia popularidad gracias a los distintos desarrolladores de diversas partes del mundo. Con respecto al tema se llevó a cabo una serie de investigaciones bibliográfica o documental en principales bibliotecas científicas virtuales con el fin de establecer definiciones sobre el tema en estudio, de la misma manera sus características, las distintas formas y herramientas disponibles para esta técnica, haciendo hincapié en sus posibles aplicaciones en distintos ámbitos. Además, de cada una de las herramientas obtenidas se realizó tablas de comparación para así poder elegir las más convenientes. Con los datos obtenidos, se pudo estudiar generando conocimientos a través de análisis de estos datos, asimismo el estudio permitió conocer los proyectos o repositorios más activos o con más contribuidores de GitHub. En este sentido, la aplicación fue desarrollada con el lenguaje de programación Python bajo el patrón de diseño MTV (Model Template View), utilizando como marco de desarrollo (Framework) Django y se utilizó base de datos NoSQL como MongoDB y como editor de código (IDE) se utilizó PyCharm en su versión Community. Con todo ello, la aplicación es capaz de soportar grandes cantidades de información, desde su recolección (Web Scraping desde la API), almacenamiento, hasta su posterior consulta o búsqueda desde la vista hacia la base de datos. Para determinar la factibilidad de Web Scraping como herramienta para extraer información de forma automática aplicada en GitHub fue necesario realizar diferentes pruebas según las distintas técnicas disponibles, es decir, las pruebas se realizaron a nivel de librerías que son ajenos a la plataforma, y asimismo se realizó a nivel del API, siendo este el objetivo principal del estudio, por lo cual, a nivel de librerías o framework como Scrapy, simplemente se utilizó con fines prácticos, no obstante, en este estudio también se describe sobre esta poderosa librería para el ámbito de Web Scraping
dc.identifier.citation	IS.216	es
dc.identifier.uri	https://repositorio.puce.edu.ec/handle/123456789/38011
dc.language.iso	es
dc.publisher	PUCE - Esmeraldas
dc.subject	Raspado web
dc.subject	APIs
dc.subject	Repositorios de código
dc.subject	GitHub
dc.title	Software para web scraping desde las APIs de repositorios de código

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Pianchiche Delacruz Wilmer Fabián.pdf
Size:: 1.44 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Plain Text
Description:

Download

Collections

Tesis- Ingeniería en Sistemas y Computación