Oct. 21, 2022, 12:05 p.m.

Episodio 52 🐍⚙️

Noticiero Python y Datos

🚀 Esta semana ha salido Anaconda Distribution 2022.10, una nueva versión de la popular distribución de Python para ciencia de datos. Entre las novedades, se cuentan soporte para Python 3.10 (¡ojo que el lunes sale Python 3.11!), mejoras en Anaconda Navigator, compatibilidad completa para interfaces gráficas en macOS sobre M1, y las últimas versiones de conda, pandas, y matplotlib.

Twitter avatar for @anacondainc
Anaconda @anacondainc
We are pleased to announce the release of the Anaconda Distribution 2022.10 installer!

⭐ Updated resources for the community. ⭐ GUI support for macOS M1. ⭐Application tile enhancements & homepage filters for a dynamic experience.

Read more here 👇 bit.ly/3eF4SuK

bit.lyAnaconda | New Release: Anaconda Distribution 2022.10The 2022.10 release of Anaconda Distribution features Qt support in Anaconda Navigator v2.3.1, full GUI support for macOS M1’s ARM64 architecture, Python 3.10, improved security protocols, and several package updates. 2022.10 is the last release that will support Python 3.7. Click here to access…
10:36 PM ∙ Oct 18, 2022
16Likes3Retweets

También tenemos versiones nuevas de Polars: desde el último noticiero se ha incluido soporte para datos en streaming (¡ya puede leer datos más grandes que la RAM!), un lector de CSV por bloques, mejoras en el manejo de zonas horarias, y mucho más. La última versión al cierre de esta edición es Polars 0.14.21.

Twitter avatar for @RitchieVink
Ritchie Vink @RitchieVink
It bugged me that I needed to give this answer to @CMastication, so I started making @DataPolars a hybrid streaming engine. In the coming months we will support more streaming queries.

Today I was able to run this query on a 80GB CSV, needing < 1GB of RAM on 12 threads.

Image
Twitter avatar for @RitchieVink
Ritchie Vink @RitchieVink
@alexkyllo @CMastication Duckdb is designed for larger than RAM data. It has a streaming pipeline where batches that are processed don’t have to be in-memory anymore.

Polars is not streaming, so for 4B rows you need a bigger machine. It was never designed to be able to process larger than RAM data.

1:34 PM ∙ Oct 11, 2022
77Likes12Retweets

💡 Esta semana he descubierto dstack, una herramienta para aprovisionar recursos en la nube para entrenar modelos de aprendizaje automático.

Twitter avatar for @DataTalksClub
DataTalksClub @DataTalksClub
🧬@dstackai — “Terraform for machine learning”

🪄 It provisions required resources in the cloud ✨ Sets up the environment 💫 Saves output artifacts

100% open-source and free

👉 github.com/dstackai/dstack

Image
3:00 PM ∙ Oct 18, 2022
26Likes8Retweets

También he descubierto Ivy, un proyecto bastante ambicioso que busca unificar todos los frameworks de inteligencia artificial (de momento JAX, TensorFlow, PyTorch, y NumPy).

📚 Se ha publicado la Encuesta Kaggle 2022 sobre el estado del aprendizaje automático y la ciencia de datos. Del resumen ejecutivo se extraen algunas conclusiones:

➕ Suben: Python, SQL, VS Code, Google Colab, las TPUs
🟰 Se mantienen: Jupyter, la brecha de género, scikit-learn
➖ Bajan: R, MATLAB

Liam Brannigan ha sacado un curso de Polars en Udemy, ¡y tiene muy buena pinta!

Y por último, si me permites un poco de autobombo: he publicado un artículo sobre cómo analizar +4.6 millones de comentarios de Reddit en segundos usando DuckDB que creo que me ha quedado bastante bien.

Twitter avatar for @orchestofficial
Orchest @orchestofficial
Check out the first part of our series “Python on SQL”: 🦆 Analyzing 4.6+ million mentions of climate change on Reddit using @duckdb

You can import the project directly to your Orchest instance! github.com/astrojuanlu/or…

orchest.io/blog/sql-on-py…

orchest.ioSQL on Python, part 1: The simplicity of DuckDBIn this first part of our series “SQL on Python” we explore DuckDB, a library providing in-memory, lightning-fast transactional database to conveniently run SQL directly on CSV and Parquet files among other niceties.
5:45 PM ∙ Oct 20, 2022
7Likes6Retweets

💼 La gente de Qilimanjaro Quantum Tech, una startup catalana de computación cuántica, busca Junior Software Engineer con experiencia en Python por 30-35 k€.

🤔 La nueva versión 1.5 de Stable Diffusion está envuelta en polémica: Runway, la empresa que lo creó, publicó esta versión, parece ser que en contra de la opinión de Stability AI, que llegó incluso a mandar una solicitud formal para que lo retiraran a Hugging Face (la plataforma donde se publica). Hay mucho nerviosismo en torno a la regulación que está preparando Europa, y también, en mi opinión, algunas personas muy polémicas e incluso tóxicas con mucho poder dentro del ecosistema. Veremos cómo evoluciona todo esto.


Hablando de cursos en Udemy sobre Polars, DuckDB, y demás, hace mucho tiempo que me planteo grabar yo uno en español sobre estos u otros temas. ¿Pagarías por ello? ¡Te leo por email o en los comentarios!

You just read issue #42 of Noticiero Python y Datos. You can also browse the full archives of this newsletter.

Share on LinkedIn
GitHub LinkedIn
Powered by Buttondown, the easiest way to start and grow your newsletter.