Jan. 20, 2023, 10:24 a.m.

Episodio 62 🐍⚙️🗳️

Noticiero Python y Datos

🚀 A principios de año Apache Arrow introdujo la versión 1.0 de la especificación “Arrow Database Connectivity” (ADBC), que pretende ser “una alternativa columnar a JDBC/ODBC”. Con ADBC, las bases de datos que usan Arrow nativamente ya pueden devolver resultados de consultas sin conversiones intermedias utilizando el protocolo Arrow Flight SQL, y las que no lo usen pueden hacer la conversión en el driver, mejorando el rendimiento. Con esto se completa el ecosistema Arrow para interacción con bases de datos: Arrow en sí mismo como formato en memoria, ADBC como API para clientes, y Arrow Flight SQL como protocolo de transferencia de datos. Si quieres saber más de Arrow, puedes ver mi charla en la PyConES 2022 sobre alternativas a pandas.

Y siguiendo con el tema, hemos tenido versiones nuevas de Polars (varias por semana, no las pongo todas en el noticiero), pero Polars 0.15.15 introduce ordenación out-of-core, lo que significa que se pueden ordenar miles de millones de filas sin que quepan en memoria en cuestión de un par de minutos.

https://user-images.githubusercontent.com/3023000/212352514-a44e74e4-21e2-421f-b06d-6a4d4c26dfd0.png

Finalmente, hemos tenido versiones nuevas de Great Expectations, introduciendo compatibilidad con Python 3.10 y una nueva referencia de la API.

💡 David Criado (¡gracias!) me avisa de Constituent Treelib, una biblioteca Python para hacer análisis sintácticos basada en spaCy y NLTK. Aquí tienes un ejemplo de uso.

No alternative text description for this image

Ayer Bea Hernández en su charla sobre explicabilidad en PyData Madrid mencionó dalex, una biblioteca Python parecida a SHAP pero que incluye también análisis de imparcialidad (fairness).

📚 Tenía pendiente este artículo que analiza cómo de popular es matplotlib en el ámbito académico a partir de datos de arXiv utilizando Dask. ¡Resulta que más de un 15 % de todos los artículos de arXiv hoy en día lo usan!

Por otro lado, veo que nbviewer ha arreglado algunos bugs y ha añadido soporte para notebooks de HuggingFace.

No alternative text description for this image

🎨 Daniel García (¡gracias!) me hace llegar este exquisito compendio de ilustraciones para explicar conceptos de aprendizaje automático.

🗳️ He pensado que me gustaría cambiar el nombre de la publicación a “Noticiero Python y Datos”, porque “Python Científico” ya no refleja mucho el foco de lo que escribo. ¿Qué opinas?


¿Buscas proveedor de dominios y hosting bueno, bonito y barato para tu próximo proyecto? Llevo años con Dinahosting (enlace afiliado) y no me cambio por nada, el soporte 24 horas es 🔝, y son de Galicia 🇪🇸

You just read issue #53 of Noticiero Python y Datos. You can also browse the full archives of this newsletter.

Share on LinkedIn
GitHub LinkedIn
Powered by Buttondown, the easiest way to start and grow your newsletter.