🔥 ¡Ya es oficial! Como anunciamos en julio, RStudio ha cambiado de nombre y ahora es Posit. En palabras de Hadley Wickham, Chief Scientist de Posit:
Posit no va de pivotar de R a Python. Va de ampliar y abrazar la comunidad Python así como la comunidad de R.
Creo que es un movimiento lógico teniendo en cuenta el declive progresivo de R, como pudimos ver en la encuesta de Kaggle hace dos semanas. Al mismo tiempo, la comunidad R es tremendamente amistosa y colaborativa, y eso es algo que sería una lástima que se perdiese. Y por último, creo que es una muy buena noticia que haya más entidades que le quieran plantar cara a VS Code, que va camino de convertirse en el monopolio de los IDEs, según extraje en su momento de la encuesta oficial de Python que hacen JetBrains y la Python Software Foundation.
Nótese que Posit es una B-Corp, es decir: es una entidad con ánimo de lucro, pero busca el beneficio social.
🚀 Esta semana ha salido Bokeh 3.0 con varias novedades: diagramas de contorno (¡por fin!), una guía de introducción mucho mejor estructurada, una galería de ejemplos más rica, y mucho más. ¡No uso mucho Bokeh pero después de esto me dan ganas de probarlo!
It includes: - New contour plots, - Restructured user guide, - Expanded gallery examples, - Layout engine overhaul, - Improved widgets and tools, - More accessible color palettes,
and many more exciting features!
Check it out: blog.bokeh.org/introducing-bo…
También tenemos Arrow 10.0, con algunos cambios: C++11 ya no está soportado (ahora la versión mínima es C++17), Plasma se ha declarado definitivamente obsoleto, se elimina RecordBatchReader.get_next_batch
(úsese read_next_batch
en su lugar), se añade la posibilidad de pasar filtros directamente a pq.read_table()
, y ojo con esto que comenta la gente de Voltron: ¡nanoarrow!
Y por último pero no menos importante: ¡ha llegado mamba 1.0! Si quieres probar un sustituto ultrarrápido de conda, te lo recomiendo encarecidamente. Yo llevo usando micromamba unos meses y no podría estar más contento. Muy recomendable el artículo de Wolf en el que explica las novedades.
If you are curious on what’s new, check out this blog post: medium.com/@wolfv/releasi…
Thanks to all contributors, users (& their feedback) we can present the most stable and fastest mamba ever 🚀
💡 Esta semana he necesitado conciliar dos conjuntos de datos que representaban las mismas entidades pero de forma ligeramente distinta. En términos técnicos: quería hacer un .join()
por similitud. Investigando me di cuenta de que no era tan fácil como yo pensaba, y que hay mucha investigación al respecto. Las palabras clave: entity resolution, fuzzy matching, deduplication, record linkage. Según Wikipedia, “cotejo de datos” o “resolución de entidades”.
Después de probar varias alternativas y leer muchas respuestas chapuceras de Stack Overflow, al final me he quedado con recordlinkage, un toolkit que resuelve este problema de una manera muy flexible e intuitiva. Altamente recomendable.
📚 Y si te interesó lo anterior, no dejes de leer esta serie de 5 artículos sobre cotejo de datos.
towardsdatascience.com/practical-guid…
➕ successfully applied those ideas in Python with recordlinkage
🗽 Este domingo vuelo a Nueva York para hablar en la PyData NYC sobre mi nueva biblioteca de Python favorita, Polars. Además, voy a poder desvirtualizar a gente que tengo muchas ganas de conocer como Melissa Mendonça, co-liderar un sprint de NumPy y SciPy, ver de nuevo al inimitable James Powell, y quién sabe cuántas cosas más. ¡Deseando!
¿Estás buscando una alternativa a Heroku? Yo he migrado a Railway (enlace afiliado) y me encanta que las aplicaciones no “duermen” así que el tiempo de respuesta es siempre rápido ⚡