🚀 A principios de año Apache Arrow introdujo la versión 1.0 de la especificación “Arrow Database Connectivity” (ADBC), que pretende ser “una alternativa columnar a JDBC/ODBC”. Con ADBC, las bases de datos que usan Arrow nativamente ya pueden devolver resultados de consultas sin conversiones intermedias utilizando el protocolo Arrow Flight SQL, y las que no lo usen pueden hacer la conversión en el driver, mejorando el rendimiento. Con esto se completa el ecosistema Arrow para interacción con bases de datos: Arrow en sí mismo como formato en memoria, ADBC como API para clientes, y Arrow Flight SQL como protocolo de transferencia de datos. Si quieres saber más de Arrow, puedes ver mi charla en la PyConES 2022 sobre alternativas a pandas.
Y siguiendo con el tema, hemos tenido versiones nuevas de Polars (varias por semana, no las pongo todas en el noticiero), pero Polars 0.15.15 introduce ordenación out-of-core, lo que significa que se pueden ordenar miles de millones de filas sin que quepan en memoria en cuestión de un par de minutos.
Finalmente, hemos tenido versiones nuevas de Great Expectations, introduciendo compatibilidad con Python 3.10 y una nueva referencia de la API.
💡 David Criado (¡gracias!) me avisa de Constituent Treelib, una biblioteca Python para hacer análisis sintácticos basada en spaCy y NLTK. Aquí tienes un ejemplo de uso.
Ayer Bea Hernández en su charla sobre explicabilidad en PyData Madrid mencionó dalex, una biblioteca Python parecida a SHAP pero que incluye también análisis de imparcialidad (fairness).
📚 Tenía pendiente este artículo que analiza cómo de popular es matplotlib en el ámbito académico a partir de datos de arXiv utilizando Dask. ¡Resulta que más de un 15 % de todos los artículos de arXiv hoy en día lo usan!
Por otro lado, veo que nbviewer ha arreglado algunos bugs y ha añadido soporte para notebooks de HuggingFace.
🎨 Daniel García (¡gracias!) me hace llegar este exquisito compendio de ilustraciones para explicar conceptos de aprendizaje automático.
🗳️ He pensado que me gustaría cambiar el nombre de la publicación a “Noticiero Python y Datos”, porque “Python Científico” ya no refleja mucho el foco de lo que escribo. ¿Qué opinas?
¿Buscas proveedor de dominios y hosting bueno, bonito y barato para tu próximo proyecto? Llevo años con Dinahosting (enlace afiliado) y no me cambio por nada, el soporte 24 horas es 🔝, y son de Galicia 🇪🇸