WebScraping en Power Query
¿Necesitas recopilar información desde varias páginas web de manera automatizada y sin necesidad de programar? Power Query en Excel es una herramienta poderosa que te permite hacer web scraping sin código, facilitando la extracción y transformación de datos desde sitios web con estructuras repetitivas.
En este artículo, te mostraré cómo extraer datos de múltiples páginas web utilizando Power Query y una función personalizada. Usaremos como ejemplo el sitio books.toscrape.com, que contiene múltiples páginas con listados de libros.
Al final de este tutorial, serás capaz de:
✅ Extraer información de una web con múltiples páginas.
✅ Aplicar una función en Power Query para automatizar el proceso.
✅ Limpiar y transformar los datos para análisis en Excel.
📌 ¿Qué es Power Query y por qué usarlo?
Power Query es una herramienta de Excel que permite extraer, transformar y cargar datos (ETL) desde diversas fuentes, incluidas páginas web. Es ideal para:
✔ Automatizar procesos de extracción de datos.
✔ Ahorrar tiempo en tareas repetitivas.
✔ Integrar información desde múltiples fuentes sin necesidad de código.
Si trabajas con análisis de datos, esta funcionalidad te permitirá obtener información en tiempo real desde sitios web sin esfuerzo manual.
🛠 Ejemplo Práctico: Extracción de Datos desde Múltiples Páginas Web
Usaremos el sitio Books to Scrape, que tiene listados de libros en múltiples páginas. Queremos extraer:
- Título del libro
- Precio
- Disponibilidad
Las URLs de las páginas siguen una estructura similar:
https://books.toscrape.com/catalogue/page-1.html
https://books.toscrape.com/catalogue/page-2.html
...
https://books.toscrape.com/catalogue/page-7.html
¡Vamos a extraer toda esta información en Excel usando Power Query!
🔗 Paso 1: Crear la Lista de URLs en Excel
Antes de importar los datos, necesitamos definir las páginas de las que extraeremos información. En una hoja de Excel, crea una columna con las URLs de cada página, como se muestra en la imagen:
📷 (Aquí puedes insertar la imagen que compartiste, donde se muestran las URLs en una tabla de Excel.)
🔄 Paso 2: Crear una Función en Power Query para Extraer Datos
1️⃣ Abre Excel y ve a la pestaña Datos → Obtener y transformar datos → Obtener datos → Desde otras fuentes → Desde Web.
2️⃣ Ingresa la URL de la primera página (https://books.toscrape.com/catalogue/page-1.html
).
3️⃣ Power Query abrirá el contenido del sitio. Haz clic en Transformar datos.
4️⃣ Usa la función Html.Table
para extraer la información deseada.
Aquí está el código en Power Query que nos permitirá extraer los datos:
let
Origen = (url as text) => let
Origen = Web.BrowserContents(url),
#"Tabla extraída a partir de HTML" = Html.Table(Origen,
{{"Título", "H3 *"}, {"Precio", ".price_color"},
{"Disponibilidad", ".instock"}, {"Botón", ".btn"}},
[RowSelector=".col-xs-6"]),
#"Tipo cambiado" = Table.TransformColumnTypes(#"Tabla extraída a partir de HTML",
{{"Título", type text}, {"Precio", type text},
{"Disponibilidad", type text}, {"Botón", type text}})
in
#"Tipo cambiado"
in
Origen
Esta función personalizada toma una URL como parámetro y extrae la información de los libros de cada página.
🔗 Paso 3: Aplicar la Función a Todas las URLs
1️⃣ En Power Query, ve a Inicio → Nueva consulta → Desde tabla/rango.
2️⃣ Selecciona la columna que contiene las URLs y conviértela en una consulta de lista.
3️⃣ Ve a Agregar columna → Invocar función personalizada y selecciona la función creada en el paso anterior.
4️⃣ Power Query extraerá los datos de todas las páginas automáticamente.
¡Listo! Ahora tendrás una tabla consolidada con todos los libros extraídos de varias páginas web.
📊 Paso 4: Cargar los Datos en Excel
1️⃣ Una vez extraídos y transformados los datos en Power Query, haz clic en Cerrar y cargar.
2️⃣ Los datos aparecerán en una hoja de Excel listos para su análisis.
3️⃣ Puedes aplicar filtros, gráficos o exportarlos a Power BI para una mejor visualización.
🎯 Conclusión
Power Query es una herramienta increíblemente poderosa para extraer datos de múltiples páginas web sin programar. Con esta técnica, puedes recopilar información de manera automatizada, ahorrando horas de trabajo manual.
💡 Aplicaciones prácticas:
✔ Obtener precios de productos desde tiendas en línea.
✔ Extraer noticias o información financiera en tiempo real.
✔ Automatizar reportes y análisis de datos sin depender de actualizaciones manuales.
🚀 ¿Te gustaría aprender más sobre Power Query y análisis de datos? ¡Déjamelo en los comentarios y suscríbete para más contenido como este!
📥 Descarga el archivo Excel con la consulta aquí: [Tu enlace de descarga]
📣 Comparte este contenido
Si esta guía te fue útil, compártela en redes sociales o con colegas que trabajen con Excel y análisis de datos. ¡Ayudemos a más personas a automatizar tareas y ahorrar tiempo! ⏳💡
🔍 Más Cursos recomendados:
📌 Curso avanzado de Power Query Lenguaje M
📌 Automatiza tus reportes en Power BI Power Query
📌 Guía completa de Power Query para principiantes
#Excel #PowerQuery #WebScraping #Automatización #Datos #Tutorial
Mira una clase
Deja un comentario