Haciendo ciencia de datos en la nube con ScraperWiki

La ciencia de datos es lo nuevo en tecnología; muy moderno y altamente pagado, con científicos de datos que son buscados por algunas de las compañías más grandes del mundo.

La ciencia de datos es lo nuevo en tecnología;  muy moderno y altamente pagado, con científicos de datos que son buscados por algunas de las compañías más grandes del mundo.
Anuncio

Si tienes las habilidades mentales, un talento para la programación y la narración de cuentos, y un ojo para el diseño, puedes hacer algo peor que entrar en la ciencia de datos. Es lo nuevo en tecnología; muy moderno y altamente pagado, con científicos de datos que son buscados por algunas de las compañías más grandes del mundo.

ScraperWiki es una empresa que durante mucho tiempo ha estado asociada con el campo de la ciencia de datos. En los últimos años, esta startup con sede en Liverpool ha ofrecido una plataforma para que los codificadores escriban herramientas que obtengan datos, los limpien y analicen en la nube.

Con una renovación reciente y la demanda cada vez mayor de científicos de datos en la empresa, vale la pena echar un buen vistazo a ScraperWiki.

Divulgación completa: fui pasante en ScraperWiki el verano pasado.

¿Qué hace ScraperWiki?

ScraperWiki se promociona a sí mismo como un lugar para obtener, limpiar y analizar datos, y cumple con cada uno de esos aspectos. En su forma más simple, le permite a usted, el usuario, un lugar donde puede escribir código que recupera datos de una fuente, herramientas para convertirlo a un formato que es fácil de analizar, y almacenamiento para guardarlo para su posterior visualización, que usted también se puede manejar con ScraperWiki.

ScraperWiki-Home

También viene con una serie de herramientas preconstruidas que automatizan las tareas repetitivas, incluida la obtención de datos de archivos PDF, que son notoriamente difíciles de descodificar. Esto es además de la búsqueda de Twitter. 5 Trucos geniales de búsqueda de Twitter para monitorear lo que la gente dice de ti. 5 Trucos geniales de búsqueda de Twitter para monitorear lo que la gente dice de ti. Si tienes un sitio web o estás tratando de ganar dinero en línea como profesional independiente, siempre es bueno saber lo que la gente dice de ti a través de Internet. La gente puede estar citando ... Leer más y raspar utilidades. No necesita ninguna experiencia de desarrollo de software para usar estos.

Costo

Como se mencionó anteriormente, ScraperWiki adopta el modelo de precios freemium y ofrece un servicio que tiene múltiples niveles. Aquellos que recién comienzan con ciencia de datos o con necesidades limitadas pueden hacer uso del servicio gratuito. Esto le da tres conjuntos de datos: donde almacena sus datos y su código.

Aquellos que planean escribir múltiples raspadores o querer hacer montañas de análisis de datos pueden desembolsar algo de efectivo para una cuenta premium. Estos comienzan en $ 9 por mes y ofrecen 10 conjuntos de datos. Si eso aún no es suficiente, siempre puede actualizar a su nivel más alto, que viene con 100 conjuntos de datos y cuesta $ 29 por mes.

Codificación

Los programadores a menudo son bastante particulares cuando se trata de cómo codifican. Algunos prefieren los lenguajes de scripting sobre los lenguajes compilados. Algunos prefieren la experiencia reducida de un editor de texto sobre la de un entorno de desarrollo integrado (IDE). ScraperWiki lo reconoce y brinda al usuario una gran cantidad de opciones en lo que respecta a la forma de escribir el código.

scraperwiki-choose

Si le gusta, puede escribir su código en el navegador. Como es de esperar de cualquier IDE basado en el navegador, de nivel profesional, basado en navegador. Para codificar en la nube. El Top 3 IDE basado en navegador. Para codificar en la nube. Leer más herramienta de desarrollo, esto viene con características que cualquier programador consideraría esencial, como el resaltado de sintaxis.

scraperwiki-coding-browser

Hay varios idiomas en oferta. Estos incluyen Python Los 5 mejores sitios web para aprender la programación de Python Los 5 mejores sitios web para aprender la programación de Python Durante la última década, el lenguaje de programación Python ha ganado popularidad entre los programadores en todas las áreas de codificación. Desde desarrolladores web hasta diseñadores de videojuegos y creadores de herramientas internas, muchas personas han caído en ... Leer más, un popular lenguaje de scripting utilizado por los gustos de Google y la NASA; Ruby 3 formas interactivas, divertidas y gratuitas para comenzar a aprender el lenguaje de programación Ruby 3 formas interactivas, divertidas y gratuitas para comenzar a aprender el lenguaje de programación Ruby Ruby es un lenguaje de scripting expresivo de muy alto nivel. Se utiliza en la Web principalmente como parte del marco de desarrollo web de Ruby on Rails, pero también es independiente. Si tiene curiosidad acerca de lo que Ruby (no ... Leer más, que impulsa una serie de sitios web populares como Living Social, y el popular lenguaje de análisis estadístico, R.

scraperwiki-language

Además, también puedes escribir código desde la línea de comando usando SSH, Git y cualquier editor de texto que disfrutes usar. Sí, lo leiste bien. SSH Qué es SSH y cómo es diferente de FTP [Explicación de la tecnología] Qué es SSH y cómo es diferente de FTP [Explicación de la tecnología] Leer más. Cada caja que utiliza es su propia cuenta de Linux y puede conectarse a ella como lo haría con un VPS o cualquier otra cuenta de shell. Hay una cantidad de editores de texto disponibles, incluyendo Vim. Las 7 mejores razones para dar al editor de texto Vim Una oportunidad Las 7 razones principales para dar al editor de texto Vim Una oportunidad Durante años, he probado un editor de texto tras otro. Usted lo nombra, lo intenté. Utilicé a todos y cada uno de estos editores durante más de dos meses como mi principal editor diario. De alguna manera, yo ... Leer más que se puede ampliar con complementos y editando la configuración. Aquellos intimidados por Vim pueden usar Nano, que es un editor de texto de línea de comando ligero.

scraperwiki-vim

Las bibliotecas instaladas deberían ser suficientes para escribir herramientas para recuperar datos y procesarlos. Si necesita algo un poco más oscuro, siempre puede crear un virtualenv desde la línea de comando. Como puede ver, hay una gran cantidad de flexibilidad para los desarrolladores.

Visualización de datos

Entonces, tienes tus datos. Lo has normalizado. Lo has limpiado Lo has analizado. Ahora es el momento de hacer una visualización y mostrarle al mundo lo que has aprendido.

ScraperWiki les permite a los desarrolladores mostrar sus datos usando páginas web construidas a partir de la conocida trifecta de HTML, CSS y JavaScript. Además, los componentes de Bootstrap son compatibles desde el primer momento.

scraperwiki-visualización

Hay una serie de visualizaciones prefabricadas disponibles, incluidas las que trazan sus datos en un mapa y encuentran tendencias dentro de sus hallazgos. Para usarlos, debe asegurarse de que sus datos estén almacenados como un archivo SQLite con el nombre de archivo 'scraperwiki.sqlite'. Luego simplemente agrega la visualización que le interesa. Simple, ¿verdad?

Conclusión

ScraperWiki ofrece mucho a los desarrolladores que desean hacer algunos análisis de datos sin que su entorno de desarrollo se interponga en su camino, a la vez que tienen la flexibilidad para complacer incluso a los usuarios más exigentes. Pero ¿qué piensas? Déjame saber abajo en los comentarios.
Crédito de la foto: Rocket Science (Dan Brown)

In this article