Nov. 4, 2022, 10:45 a.m.

Episodio 54 🐍⚙️

Noticiero Python y Datos

🔥 ¡Ya es oficial! Como anunciamos en julio, RStudio ha cambiado de nombre y ahora es Posit. En palabras de Hadley Wickham, Chief Scientist de Posit:

Posit no va de pivotar de R a Python. Va de ampliar y abrazar la comunidad Python así como la comunidad de R.

Creo que es un movimiento lógico teniendo en cuenta el declive progresivo de R, como pudimos ver en la encuesta de Kaggle hace dos semanas. Al mismo tiempo, la comunidad R es tremendamente amistosa y colaborativa, y eso es algo que sería una lástima que se perdiese. Y por último, creo que es una muy buena noticia que haya más entidades que le quieran plantar cara a VS Code, que va camino de convertirse en el monopolio de los IDEs, según extraje en su momento de la encuesta oficial de Python que hacen JetBrains y la Python Software Foundation.

Nótese que Posit es una B-Corp, es decir: es una entidad con ánimo de lucro, pero busca el beneficio social.

🚀 Esta semana ha salido Bokeh 3.0 con varias novedades: diagramas de contorno (¡por fin!), una guía de introducción mucho mejor estructurada, una galería de ejemplos más rica, y mucho más. ¡No uso mucho Bokeh pero después de esto me dan ganas de probarlo!

Twitter avatar for @bokeh
Bokeh Visualization Library @bokeh
Bokeh 3.0 is out! 🎉✨

It includes: - New contour plots, - Restructured user guide, - Expanded gallery examples, - Layout engine overhaul, - Improved widgets and tools, - More accessible color palettes,

and many more exciting features!

Check it out: blog.bokeh.org/introducing-bo…

A collage of all the thumbnails (~97) of many plot types from the Bokeh gallery. It is intended to show the capabilities of Bokeh and includes line/scatter/bar charts, contour plots, geographic maps, and more.
Contour plot of z = sin (pi*x) + cos(pi*y) colored with a palette with a red-to-white gradient where red is -2 and white is +2.
Four color palettes are arranged as a grid.
"Bright" - has shares of dark blue, pink/red, green, dark yellow, blue, magenta, and grey.
"Muted" - has shades of red/pink, deep blue, yellow, green, light blue, wine red, light green, dark yellow/brown, magenta/pink.
"TolPRGn" - has a gradient of dark purple to white to dark green.
"BuRd" - has a gradient of blue to white to red.
A treemap plot from the Sample Superstore dataset that describes sales per region in the USA. To the left is "West" in light blue, "East" is in the middle in red, "South" is in the top right in yellow, and "Central" is in the bottom left in dark blue. Each city is represented as a square. Larger the area, the more the sales in the city/region.
4:03 PM ∙ Oct 31, 2022
350Likes82Retweets

También tenemos Arrow 10.0, con algunos cambios: C++11 ya no está soportado (ahora la versión mínima es C++17), Plasma se ha declarado definitivamente obsoleto, se elimina RecordBatchReader.get_next_batch (úsese read_next_batch en su lugar), se añade la posibilidad de pasar filtros directamente a pq.read_table(), y ojo con esto que comenta la gente de Voltron: ¡nanoarrow!

Twitter avatar for @VoltronData
Voltron Data @VoltronData
Nanoarrow! Embeddable. Portable. Lightweight. It compiles to <100kb and is distributed as two files - making it easier to integrate in specialized libraries. Shoutout to @paleolimbot for the hard work on this!
github.comGitHub - apache/arrow-nanoarrow: Helpers for Arrow C Data & Arrow C Stream interfacesHelpers for Arrow C Data & Arrow C Stream interfaces - GitHub - apache/arrow-nanoarrow: Helpers for Arrow C Data & Arrow C Stream interfaces
2:43 PM ∙ Nov 2, 2022
17Likes3Retweets

Y por último pero no menos importante: ¡ha llegado mamba 1.0! Si quieres probar un sustituto ultrarrápido de conda, te lo recomiendo encarecidamente. Yo llevo usando micromamba unos meses y no podría estar más contento. Muy recomendable el artículo de Wolf en el que explica las novedades.

Twitter avatar for @wuoulf
Wolf Vollprecht @wuoulf
I am extremely happy to announce the mamba 1.0 release 🎉

If you are curious on what’s new, check out this blog post: medium.com/@wolfv/releasi…

Thanks to all contributors, users (& their feedback) we can present the most stable and fastest mamba ever 🚀

medium.comReleasing mamba 1.0The fast cross-platform package manager is hitting a big milestone: the 1.0 release. Mamba is faster and more stable than ever, and also ..
5:41 PM ∙ Nov 2, 2022
350Likes88Retweets

💡 Esta semana he necesitado conciliar dos conjuntos de datos que representaban las mismas entidades pero de forma ligeramente distinta. En términos técnicos: quería hacer un .join() por similitud. Investigando me di cuenta de que no era tan fácil como yo pensaba, y que hay mucha investigación al respecto. Las palabras clave: entity resolution, fuzzy matching, deduplication, record linkage. Según Wikipedia, “cotejo de datos” o “resolución de entidades”.

Después de probar varias alternativas y leer muchas respuestas chapuceras de Stack Overflow, al final me he quedado con recordlinkage, un toolkit que resuelve este problema de una manera muy flexible e intuitiva. Altamente recomendable.

https://recordlinkage.readthedocs.io/en/latest/_images/indexing_basic.png

📚 Y si te interesó lo anterior, no dejes de leer esta serie de 5 artículos sobre cotejo de datos.

Twitter avatar for @juanluisback
@astrojuanlu@social.juanlu.space @juanluisback
Started with “how can I merge these two dataframes by similarity”, and ended up reading this excellent guide by @yifei_huang about Entity Resolution

towardsdatascience.com/practical-guid…

➕ successfully applied those ideas in Python with recordlinkage

9:05 PM ∙ Nov 1, 2022

🗽 Este domingo vuelo a Nueva York para hablar en la PyData NYC sobre mi nueva biblioteca de Python favorita, Polars. Además, voy a poder desvirtualizar a gente que tengo muchas ganas de conocer como Melissa Mendonça, co-liderar un sprint de NumPy y SciPy, ver de nuevo al inimitable James Powell, y quién sabe cuántas cosas más. ¡Deseando!


¿Estás buscando una alternativa a Heroku? Yo he migrado a Railway (enlace afiliado) y me encanta que las aplicaciones no “duermen” así que el tiempo de respuesta es siempre rápido ⚡

You just read issue #44 of Noticiero Python y Datos. You can also browse the full archives of this newsletter.

Share on LinkedIn
GitHub LinkedIn
Powered by Buttondown, the easiest way to start and grow your newsletter.