Hacer Visionary Web Research Studies utilizando Deep Web Data y Excel Web Queries

¿Qué dirías si te dijera que tienes las herramientas a tu disposición para hacer una investigación pionera y demoledora? Bueno, lo haces, y te mostraré cómo.

¿Qué dirías si te dijera que tienes las herramientas a tu disposición para hacer una investigación pionera y demoledora?  Bueno, lo haces, y te mostraré cómo.
Anuncio

¿Qué dirías si te dijera que tienes las herramientas a tu disposición para hacer una investigación pionera y demoledora? Bueno, lo haces, y te mostraré cómo.

Los gobiernos, las instituciones académicas y las organizaciones de investigación sin fines de lucro publican tablas llenas de datos para el dominio público. Sin que nadie use esta información, nunca se sabrá su verdadero valor. Desafortunadamente, pocas personas tienen la información, las habilidades o las herramientas para tomar los datos y realizar correlaciones interesantes entre información aparentemente desconectada.

Fondo

Gran parte de la investigación que hago para mi propio blog implica explorar lo que se conoce como la red invisible. 10 Motores de Búsqueda para Explorar la Web Invisible 10 Motores de Búsqueda para Explorar la Web Invisible Estamos familiarizados con la web. ¿Pero sabías que hay una gran cantidad de información a la que los motores de búsqueda como Google no tienen acceso directo? Esta es la red invisible. Leer más, para descubrir datos que se han lanzado al público, pero ocultos a los motores de búsqueda Los 5 motores de búsqueda más avanzados en la Web Los 5 motores de búsqueda más avanzados en la Web Lea más en una base de datos en línea. Esta es la web profunda TorSearch pretende ser el Google para la Web profunda TorSearch pretende ser el Google para la Web profunda Tor es un servicio oculto y parte de la Web profunda. TorSearch es un nuevo motor de búsqueda anónimo que su fundador Chris MacNaughton quiere convertir en el "Google of Tor". Lea más, y está lleno de datos valiosos. Muy a menudo, me encuentro con páginas web repletas de algunos de los datos más valiosos sobre temas que abarcan toda la gama, desde datos censales hasta estudios epidemiológicos sobre enfermedades raras. Constantemente tengo nuevas ideas sobre cómo tratar de correlacionar esas fuentes de datos dispares usando varias herramientas, y una de las herramientas más valiosas que he encontrado es la consulta web dentro de Microsoft Excel.

Encontrar correlaciones de datos interesantes

Lo que voy a mostrarles hoy es un ejemplo de cómo puede utilizar las Consultas web de Excel para obtener datos de diferentes sitios web y trazarlos entre sí para buscar posibles correlaciones entre los datos.

La forma de comenzar un ejercicio como este es crear una hipótesis interesante. Por ejemplo, para mantener las cosas interesantes aquí, voy a postular al azar que las tasas de autismo en aumento en los Estados Unidos son causadas por vacunas o la creciente presencia de campos electromagnéticos en los niños, como los teléfonos celulares. Es una hipótesis descabellada como la que encontrarás en la mayoría de los sitios web de la teoría de la conspiración, pero eso es lo que hace que esto sea divertido. Entonces comencemos, ¿de acuerdo?

Primero, abra Excel, vaya al elemento del menú de datos y encuentre el ícono "De la Web" en la cinta del menú.

web-query-excel1

Esto es lo que usará para importar las diferentes tablas de datos de los muchos sitios web que las han publicado.

Importación de datos web a Excel

Entonces, en los viejos tiempos, tendrías que tratar de copiar los datos de esa tabla en una página web, pegarlos en Excel y luego lidiar con todos los problemas de formateo que implicaba hacerlo. Total molestia, y muchas veces simplemente no vale la pena el dolor de cabeza. Bueno, con Excel Web Queries, esos días ya no están. Por supuesto, antes de que pueda importar los datos, tendrá que navegar por Google para encontrar los datos que necesita en formato de tabla. En mi caso, encontré un sitio web que publicó las estadísticas del Departamento de Educación sobre el número de estudiantes de escuelas públicas de EE. UU. Identificados como autistas. Una buena mesa allí proporcionó números desde 1994 hasta 2006.

Por lo tanto, simplemente haga clic en "Desde la Web", pegue la URL de la página web en el campo de dirección de la consulta y luego desplácese hacia abajo hasta que vea la flecha amarilla al lado de la tabla con los datos que desea importar.

web-query-excel2

Haga clic en la flecha para que se convierta en una marca de verificación verde.

web-query-excel3

Finalmente, indique a Excel en qué campo desea pegar los datos de la tabla dentro de su nueva hoja de cálculo.

web-query-excel4

Entonces - ¡Voila! Los datos fluyen automáticamente a la hoja de cálculo.

web-query-excel5
Por lo tanto, con una tendencia de las tasas de autismo en las escuelas públicas desde 1996 hasta 2006, es hora de salir a buscar tendencias de vacunación y uso de teléfonos celulares también.

Afortunadamente, encontré rápidamente tendencias para los suscriptores de teléfonos celulares en los EE. UU. De 1985 a 2012. Datos excelentes para este estudio en particular. De nuevo, utilicé la herramienta de consulta web de Excel para importar esa tabla.

web-query-excel6

Importé esa tabla en una hoja nueva y limpia. Luego, descubrí las tendencias de vacunación para el porcentaje de escolares vacunados contra diferentes enfermedades. Importé esa tabla usando la herramienta de consulta web en una tercera hoja. Entonces, finalmente, tenía tres hojas con las tres tablas llenas con los datos aparentemente desconectados que había descubierto en la Web.

web-query-excel8

El siguiente paso es usar Excel para analizar los datos e intentar identificar las correlaciones. Ahí es donde entra en juego una de mis herramientas favoritas de análisis de datos: la tabla dinámica.

Analizando datos en Excel con la tabla dinámica

Lo mejor es crear su tabla dinámica en una hoja nueva y vacía. Desea usar el asistente para lo que está a punto de hacer. Para habilitar el asistente de tabla dinámica en Excel, debe presionar Alt-D al mismo tiempo hasta que aparezca una ventana de notificación. Luego suelte esos botones y presione la tecla "P". Luego, verá aparecer el asistente.

web-query-excel10

En la primera ventana del asistente, desea seleccionar "Múltiples rangos de consolidación", que le permite seleccionar los datos de todas las hojas que ha importado. Al hacer esto, puede consolidar todos esos datos aparentemente no relacionados en una única y potente tabla pivote. En algunos casos, es posible que deba masajear algunos de los datos. Por ejemplo, tuve que arreglar el campo "Año" en la tabla de autismo para que mostrara "1994" en lugar de "1994-95", haciendo que se alineara mejor con las tablas en las otras hojas, que también tenían el año principal. campo.

web-query-excel11

Ese campo común entre los datos es lo que necesita para tratar de correlacionar la información, así que téngalo en cuenta cuando busque datos en la Web.

Una vez que la tabla dinámica esté lista y todos los diferentes valores de datos se muestren en una tabla, es hora de hacer un análisis visual para ver si hay alguna conexión obvia que salte hacia usted.

Visualizar datos es clave

Tener un montón de números en una mesa es genial si eres un economista, pero la forma más rápida y fácil de tener ese momento "¡ajá!" Cuando tratas de encontrar conexiones como una aguja en un pajar, es a través de gráficos y gráficos Una vez que tenga su gráfico dinámico en su lugar con todos los conjuntos de datos que ha recopilado, es hora de crear su gráfico. Por lo general, un gráfico de líneas lo hará mejor, pero depende de los datos. Hay momentos en que un gráfico de barras funciona mucho mejor. Intente comprender qué tipo de datos está analizando y qué forma de comparación funciona mejor.

En este caso, estoy mirando datos a lo largo del tiempo, por lo que un gráfico de líneas es realmente la mejor manera de ver las tendencias a lo largo de los años. Trazando tasas de autismo (verde) contra tasas de vacunación reducidas (azul oscuro), vacunas contra la varicela (azul claro) y el uso del teléfono celular (violeta), de pronto apareció una extraña correlación en este conjunto de datos de muestra con el que estaba jugando.

web-query-excel12

Por extraño que parezca, la tendencia en el uso del teléfono celular desde 1994 hasta 2006 casi coincidía perfectamente con el aumento en las tasas de autismo durante el mismo período de tiempo. Si bien el patrón fue completamente inesperado, es un ejemplo perfecto de cómo vincular datos interesantes puede revelar pistas fascinantes, proporcionándole una mayor percepción y motivación para seguir avanzando y buscando más datos que puedan reforzar aún más su hipótesis.

Una correlación como la anterior no prueba nada. Hay muchas tendencias que aumentan con el tiempo: el patrón podría ser una coincidencia, pero también podría ser una pista importante en su búsqueda continua de más datos en Internet. Afortunadamente, tienes una poderosa herramienta llamada Excel Web Queries que hará que la búsqueda sea un poco más fácil.

Crédito de la foto: Kevin Dooley a través de photopin cc

In this article