🚀 Minutos después del anterior episodio salió Dask 2022.02.0, con algunas mejoras y arreglos: soporte para parámetros de conexión personalizados en dask.dataframe.to_sql
(por ejemplo, para forzar SSL), parámetros extra en to_zarr
y read_json
, y nueva función expand_dims (necesaria para que Dask implemente el estándar para arrays).
Dask es un proyecto ya bastante maduro y no se ven cambios drásticos en las versiones nuevas. Si estás buscando una alternativa a PySpark, ¡estás tardando en instalarlo!
💡 Esta semana estuve probando PDM para gestionar dependencias en Python y me gusta bastante, lo veo como una evolución de Pipenv y Poetry. Puede instalar paquetes localmente sin necesidad de entornos virtuales, similar a como funciona NPM (como se describe en la PEP 582, que aún sigue en borrador).
También tenía que visualizar unas métricas en el trabajo y estuve probando plotnine, que implementa una sintaxis parecida a la que usa el venerado ggplot2 de R, pero en Python. Después de tantos años de matplotlib me costó un poco, pero ¡me sorprendió la potencia que tiene! Definitivamente tengo que profundizar más.
📚 Me gustó esta charla con varias personas del equipo de desarrollo de NumPy en la que explican cómo navegar por el código fuente, y entender dónde una determinada función de NumPy está definida a nivel de C.
Por otro lado, Richard Pelgrim, de Coiled, escribió esta guía súper pedagógica de cómo funcionan los conceptos de cálculo distribuido que son la base de Dask.
💼 Voltron Data, la empresa creada por el autor de pandas para expandir Apache Arrow, ha recibido bastante financiación ¡y busca gente! Entre otras posiciones abiertas, tienen una de Open Source Python Engineer (no incluye banda salarial)
¿Cuál es tu biblioteca de visualización favorita? ¡Cuéntalo en un comentario!