As part of building a new Recommendation System my team decided to take sometime and review available tooling for data pipelines. Since we were building a new system we might as well embrace some new data pipeline tools. We had a play with what seems to be the most remarkable names out there, in this article I will cover my experiences working on toy pipelines with the mentioned tools.

Data pipelines

Data pipelines are a needed part of the machine learning release cycle.
Until recently they just provided automation: run task1, then task2, then task3 and so on..

However as our understanding…


In early 2016 I decided to leave my Job in London, I was part of a brilliant team in a cool startup, going to work was really fun with interesting problems to solve, and smart as well as kind team mates. London is a very international city but a few things made life there a bit tough: lack of sunlight and quality of housing drove me out.

I spent most of 2016 seeing old friends, catching up with books and technical topics I always wanted to cover, going to as many meetups as I could. By the end of that…


Akashi Mifune is a Japanese illustrator who share his work for non-commercial use.

His illustrations are cute and cover all sort of situations, In Japan many people use them, particularly for presentations.

I love them, so I decided to use them in my slides too, but searching in Japanese dragged my productivity, so I built this tool to let me search in english, since it might be useful for others here it is:

The original website is this one:

Here are some sample Illustrations that I found so funny/cute:

Illustration of DDoS


Terraform is a great tool but it is also a scary monster to tame. If used correctly it can empower your team by hiding complex infrastructure setups.

This blog post focuses on what has worked better in my organisation regarding the structure of terraform projects and how to write infrastructure as code.

Project Structure

Terraform is code, just like your Python, Golang, or anything else, so it lives with the project code in a folder called tf.
whenever you go to any of our projects you will see a tf folder , and it will follow this structure:

We decided not…


Serverless framework Tutorials get you started by using a powerful AWS admin user, now you are wondering how to narrow down permissions and making your environment more secure.

After a bit of reading on Serverless’ issue [1] and bashing my head around, this post explains how to chunk permissions into roles, and provide templates withthe minimal needed policies.

The guide below will assume you are working in a “simple project” using:

  • AWS Lambda,
  • Api Gateway
  • SNS

This simple structure can easily be expanded if your project uses other services.

Permissions, Roles and Policies

You need at least three IAM roles:

  • Deployment role
  • Cloudformation role


Solicitar datos abiertos a instituciones publica no es trivial,
Al menos para mi (no soy abogado, no se de códigos de leyes) no es trivial hacerlo, y al parecer tampoco lo es según las personas que lo hacen frecuentemente(periodistas).

Los inconvenientes van desde el desconocimiento para saber que leyes citar, hasta los minúsculos detalles que solicitan algunas instituciones como
barrera para aceptar una solicitud(i.e: especificar el nombre del encargado en la institución).

Manual de FLIP de acceso a la información publica

El FLIP(Fundación para la Libertad de Prensa) publicó un manual de acceso a la información publica, es una guía fácil de seguir con plantillas de cartas de solicitud…


En 2015 Alexander Torrenegra realizó una encuesta sobre salarios de desarrolladores de Software Colombianos. Los resultados fueron algo controversiales, se concluyó que las preguntas y la formulación de las mismas no fue la mejor.

Por referencia algunos análisis de la encuesta de Salarios Torrenegra 2015:

Con el ánimo de promover una mejor encuesta Juan Pablo Buriticá líder de ColombiaDev diseñó una encuesta similar la cual fue editada y mejorada con ayuda de otros miembros de la comunidad. La encuesta se compartió al publico en el blog de ColombiaDev en enero del 2016.

El tema…


El Fin de Semana de elecciones Carlos Alberto y yo organizamos una pequeña hackathon virtual :).

Scrapeamos los datos de la registraduría concernientes a reportes financieros de las campañas políticas de candidatos a Alcaldías, Asambleas y Juntas Locales.

Este año la registraduría mejoro muchísimo el detalle de los datos disponibles en su portal http://www.cnecuentasclaras.com/ .
A diferencia de años anteriores esta vez tenemos acceso a los formularios enviados por las candidaturas. Estos formatos en excel contienen información detallada sobre créditos, gastos y donaciones.

Dataset

Aunque disponibles al publico, los XLSs no están disponibles en formato consumible.

En https://github.com/OpenDataCo/territoriales-2015 esta disponible un…


Dumping 5 Gigas de Contratos estatales

Para los que han leído mis posts anteriores tendrán claro que me siento bastante defraudado con la propuesta de Open Data del gobierno Colombiano. Así mismo con el hecho que la mayoría de hackatones se centren en crear “valor” construyendo apps con los datos abiertos que el gobierno ha publicado en su web oficial.

Seamos honestos, el 90% del tiempo que hacemos Data Science lo gastamos haciendo: Extracción, Transformación y Limpieza de datasets.
A cuantas Hackathones no hemos ido en la cual la conclusion ha sido:

“… Se podría hacer mas, pero hay que…


Bunny Inc realizo una encuesta para caracterizar los salarios de los desarrolladores Colombianos. La publicación de los resultados fue acompañada de tweets y artículos bastante polémicos entre la comunidad de Devs. Afortunadamente para los curiosos los datos de la encuesta fueron publicados en Github.

Mucha de la polémica giro en torno a puntos muy concretos y no permitió discusión sobre otras preguntas que podrían responderse con los datos de la encuesta. Decidí jugar con el dataset para intentar aclarar algunos de los puntos polémicos pero también para responder otras preguntas.

En la primera parte intentare aclarar los puntos polémicos. Seguido…

David Przybilla

Working on Recommendation Systems, NLP and Data Journalism🗼🇯🇵 @dav009 - http://alejandro.pictures/

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store