Noticiero Python y Datos

Archives
Subscribe

Noticiero Python y Datos

Archive

Episodio 40 🐍⚙️

🔥 Se ha publicado esCorpius, un corpus lingüístico del español preparado a partir de 0.8 petabytes de datos y disponible en Hugging Face bajo licencia CC BY-NC-ND 4.0. Tenéis más información en el post de Asier Gutiérrez-Fandiño en LinkedIn y en la publicación en arXiv.

🚀 Esta semana tenemos varias versiones nuevas:

galpy 1.8.0, un paquete Python para dinámica galáctica, introduce sistemas de referencia no inerciales (con el objetivo de incorporar el efecto de la aceleración del baricentro de la Vía Láctea), una nueva técnica para generación de sistemas estelares sintéticos, y como viene siendo la tónica en los últimos meses, ¡soporte para correr en el navegador usando Pyodide!

Twitter avatar for @jobovy
Jo Bovy @jobovy
💫 New version of galpy (1.8.0)! 💫
#30
July 8, 2022
Read more

Episodio 39 🐍⚙️

🚀 Hace unos días salió Dask 2022.6.1, ¡con soporte para Pyodide y PyScript! Además, están documentando las inconsistencias entre Dask y pandas para que sea más fácil pasar de una a otra.

Twitter avatar for @dask_dev
Dask @dask_dev
The Dask team released version 2022.6.1 on Friday!

It includes contributions from 21 people, including 4 new contributors.

Some release highlights: 🧵

#29
July 1, 2022
Read more

Episodio 38 🐍⚙️

🔥 ¡La empresa Anaconda ha comprado PythonAnywhere! El propósito de la adquisición, en palabras de la empresa, es acelerar la hoja de ruta de PythonAnywhere, que seguirá existiendo como un producto separado. ¡Seguro que tendremos más noticias próximamente!

Twitter avatar for @anacondainc
Anaconda @anacondainc
We’re thrilled to announce @anacondainc has acquired @pythonanywhere, the easiest solution for building and deploying cloud-based Python web apps. With this, Anaconda takes another big step in advancing Python accessibility. Read the press release here 👉 bit.ly/3HGR4dn
Image
1:15 PM ∙ Jun 22, 2022
115Likes34Retweets

🚀 ¡Ayer salió NumPy 1.23.0! Entre las novedades tenemos una aceleración notable de np.loadtxt (entre 2 y 18 veces más rápido dependiendo del caso), una nueva función np.from_dlpack para importar el formato tensorial DLPack, y mejoras en f2py (Fortran no ha muerto, solo estaba de parranda).

Twitter avatar for @numpy_team
NumPy @numpy_team
NumPy 1.23.0 is released 🎉 Highlights include: a much faster `loadtxt`, DLPack now exposed in the Python API, improvements to f2py, and improvements to promotion and comparisons of structured dtypes.
#28
June 24, 2022
Read more

Episodio 37 🐍⚙️

🇬🇧 ¡Escribo estas líneas en el tren camino a la PyData de Londres! Que yo sepa no habrá retransmisión en directo pero los vídeos se subirán al canal de YouTube en unas semanas. Puedes seguir este hilo en el que tuitearé sobre el evento:

Twitter avatar for @juanluisback
Juan Luis Cano Rodríguez #PyDataLondon @juanluisback
On my way to #PyDataLondon 2022! If you want to talk about data orchestration, know more about @orchestofficial, or just chat, say hi!

Live tweeting of the conference below 👇🏼

Image
3:42 AM ∙ Jun 17, 2022

🔥 Un equipo de investigadores españoles ha publicado un método basado en aprendizaje profundo (deep learning) para predecir la evolución de sistemas dinámicos disipativos utilizando Redes Neuronales de Grafos (Graph Neural Networks). ¡Y el código está en GitHub!

🚀 La semana pasada salió Meltano 2.0, una herramienta escrita en Python para operar tuberías de datos tipo Extracción-Carga-Transformación o Extracción-Transformación-Carga (ELT y ETL). Ya estamos usando la nueva versión internamente en Orchest aprovechando su soporte mejorado para tuberías multipaso y las transformaciones al vuelo.

Twitter avatar for @meltanodata
Meltano: Your DataOps Platform Infrastructure @meltanodata
After months of hard work, we are finally proud to say: Meet #Meltano 2.0!💜 Its debut represents a major step toward our vision of becoming the foundation of every team’s ideal #datastack. For a full perspective on what’s new, visit: meltano.com/blog/meet-melt… #Meltanov2 #DataOps
Image
6:10 PM ∙ Jun 9, 2022
10Likes2Retweets

Por otro lado, está disponible MyST-NB 0.16.0 con soporte para Python 3.10, Sphinx 5, y myst-parser 0.18. Aquí puedes leer una comparativa entre MyST-NB y nbsphinx para renderizar notebooks dentro de proyectos Sphinx y JupyterBook (resumen: nbsphinx es más lento y pesado, pero a cambio ofrece galerías de ejemplos).

💡 Esta semana he descubierto AutoKeras, un sistema para sintonización automática de modelos predictivos (AutoML) basado en Keras, e Irydium, un editor web de documentos interactivos basados en Markdown y Python.

📚 Este artículo profundiza en el BlockManager, uno de los objetos cruciales del código interno de pandas. Muy recomendable si quieres entender un poco mejor cómo funciona por debajo.

🚧 La migración de JupyterLab a la nueva versión de CodeMirror va por el buen camino: además de agregar soporte para lectores de pantalla (¡por fin!), el efecto sobre el rendimiento es notable: ¡abrir un notebook grande será hasta 10x más rápido!

Twitter avatar for @JohanMabille
Johan Mabille @JohanMabille
Very encouraging benchmark results in the migration of JupyterLab to CodeMirror 6. This will also be a significant milestone in making Jupyter more accessible.

#accessibility @ProjectJupyter @codemirror @QuantStack

Image
9:05 AM ∙ Jun 13, 2022
59Likes13Retweets

¿Buscas un Platform-as-a-Service (PaaS) alternativo a Heroku? Yo he migrado a Railway (enlace afiliado) y me encanta que las aplicaciones no “duermen” así que el tiempo de respuesta es siempre rápido ⚡

#27
June 17, 2022
Read more

Episodio 36 🐍⚙️

🔥 En las pruebas de rendimiento que ha realizado el mítico blog Phoronix, ¡parece que Python 3.11 va a ser un 60 % más rápido que Python 3.10! Después del primer artículo sacaron otro comparándolo con Pyston y PyPy, muy recomendable también.

Este tema se trató junto con muchos otros en la cumbre (Summit) sobre el lenguaje, en la que se junta el equipo de desarrollo para hablar sobre el presente y el futuro de Python. El resumen está ya online y no tiene desperdicio.

🚀 Streamlit 1.10.0 trae aplicaciones multipágina ¡por fin! entre otras mejoras: nueva visualización para tablas/dataframes, nuevos botones horizontales, y más.

#26
June 10, 2022
Read more

Episodio 35 🐍⚙️

🚀 Astropy 5.1, la piedra angular para la astronomía en Python, trae numerosas novedades, entre ellas la posibilidad de cargar cualquier conjunto de efemérides planetarias del JPL, la posibilidad de usar `numpy.linspace()` con objetos `Time`, mejoras en las unidades, y mucho más.

💡 Esta semana he descubierto ConnectorX, una biblioteca para leer bases de datos en Python a gran velocidad (aquí un artículo describiéndola) y contextily, que extrae teselas geográficas de varios proveedores de manera sencilla.

#25
June 3, 2022
Read more

Episodio 34 🐍⚙️

🔥 Aunque no está estrictamente relacionada con Python, esta noticia me parece reseñable: ¡GitHub ya soporta ecuaciones matemáticas! Solo han tardado 8 años, ¡más vale tarde que nunca!

🚀 Esta semana ha salido memray 1.1.0, la súper herramienta para analizar consumo de memoria en Python. Trae jugosas mejoras de eficiencia y soporte para Alpine Linux, entre otras novedades.

Twitter avatar for @pyblogsal
Pablo Galindo Salgado @pyblogsal
We have released version 1.1.0 of memray! 🥳
#24
May 20, 2022
Read more

Episodio 33 🐍⚙️

🔥 ¡Tenemos scikit-learn 1.1.0! La mejora más esperada de todas es que el método get_feature_names_out está disponible ya en todos los transformers, lo que significa que si usamos objetos Pipeline, ColumnTransformer, OneHotEncoder, etc. con dataframes de pandas, ¡no se pierden los nombres de las columnas! Para mí este era uno de los puntos más dolorosos de scikit-learn y estoy entusiasmado de que ya lo hayan resuelto. En las notas de versión tienes una relación completa de los cambios.

Twitter avatar for @scikit_learn
scikit-learn @scikit_learn
scikit-learn 1.1 is out! What's new? You can check the release highlights there: bit.ly/3yFnT7Q

pip install -U scikit-learn

or

#23
May 13, 2022
Read more

Episodio 32 🐍⚙️

🔥 La noticia de la semana (y posiblemente del año) fue el lanzamiento oficial de PyScript por parte de la empresa Anaconda: Python en HTML. A lo mejor te parecerá que no es nuevo (ya hubo proyectos como Brython y otros parecidos) pero al estar basado en Pyodide, permite desde ya importar todo el stack científico: pandas, matplotlib, un montón de paquetes más, y cualquier paquete con wheels precompilados. La gente ya está haciendo toda clase de experimentos y, aunque al proyecto le queda mucho por recorrer, ¡tiene una pinta espectacular!

Twitter avatar for @mariatta
Mariatta 🤦 @mariatta
#PyConUS2022 @pwang Keynote We can now `import d3`

The pyscript wrapper for d3 was done by a team member in two days ✌️‼️

Image
4:14 PM ∙ Apr 30, 2022
375Likes51Retweets

Si me permites la autocita, Anaconda está mandando un mensaje muy claro: ¡quieren Python en todas partes!

Twitter avatar for @juanluisback
Juan Luis Cano Rodríguez @juanluisback
.@anacondainc supporting @PyBeeWare by hiring @freakboy3742, @pypyproject by hiring @antocuni, and kickstarting @pyscript_dev sends a very clear message: they want Python everywhere.

Hats off to one of the companies I admire the most 🎩 and to @pwang for his leadership!

6:57 AM ∙ May 2, 2022
78Likes21Retweets

🚀 ¡Ha salido JupyterLab 3.4.0! Hay dos pequeñas mejoras de usabilidad que me encantan: la nueva barra de herramientas de las celdas, que se muestra si no se solapa con el contenido, y el botón de “nueva pestaña” junto a la última pestaña, como hacen los navegadores. También hay mejoras en el editor de configuraciones y en algunos menús contextuales.

Todo indica que la siguiente versión será la 4.0, con cambios bastante profundos, y parece que la lista de tareas pendientes va avanzando a buen ritmo. ¡Deseando!

Por otro lado Apache Airflow 2.3, el orquestador más utilizado en la actualidad, trae definición dinámica de tareas, una nueva vista de rejilla más fácil de interpretar, y ejecución de tareas a horas concretas. (¿Aunque a lo mejor quieres probar Orchest en su lugar? 😉)

Y por último pandera 0.11, una biblioteca para validación de dataframes, trae mejoras en la documentación y soporte para tipos genéricos entre otras novedades.

Twitter avatar for @dev_pandera
pandera-dev @dev_pandera
🎉 #pandera 0.11.0 is out 🎉 Docs get a make-over 💅🏽💄 for all you Dark-mode lovers 🌒 and you can now add custom name and error messages in built-in checks!
1:41 PM ∙ May 4, 2022

💡 Esta semana estoy trabajando mucho con Meltano, una herramienta Python para crear tuberías de extracción y carga de datos de manera declarativa.

Y si estás entusiasmado con DALL·E 2, echa un vistazo a DALLE2-pytorch, una implementación abierta basada en PyTorch.

📚 La gente de Nixtla (a quienes ya mencionamos cuando crearon statsforecast) han hecho un experimento con statsforecast + ray + numba que escala su AutoARIMA a series temporales de millones de elementos. El código fuente está online.

También me ha gustado mucho este artículo sobre cómo visualizar las emisiones de carbono del mundo utilizando solamente pandas y matplotlib.

📬 Mi amigo Adeshola ha publicado Slik-Wrangler, una pequeña biblioteca Python que ayuda en tareas de limpieza de datos y preprocesado. El código fuente está en GitHub.

🤔 ¿Estás como yo preocupado por los últimos problemas de seguridad de Heroku y andas buscando alternativas? Ayer probé Railway (enlace referido) y funcionó a la primera, el proceso fue muy fácil.

#22
May 6, 2022
Read more

Episodio 31 🐍⚙️

🚀 Esta semana han salido varias versiones nuevas de paquetes interesantes:

Ibis 3.0, una biblioteca Python para manipular datos como si estuvieses trabajando con SQL, ha introducido numerosas mejoras y añadido DuckDB como nuevo backend.

Probé el proyecto por primera vez hace mes y medio y tuve algunos problemas siguiendo la documentación, pero algunos ya están resueltos y ¡espero volver a probarla pronto!

Twitter avatar for @IbisData
Ibis Project @IbisData
We've released #ibis 3.0.0! Our project and community continues to grow in new and exciting ways. Learn more about the latest version of ibis:
#21
April 29, 2022
Read more

Episodio 30 🐍⚙️🏕️

Vuelta de vacaciones de Semana Santa 🏕️ ¡y con las pilas cargadas!

🔥 La empresa Bloomberg ha publicado memray, una nueva herramienta para analizar el consumo de memoria en Python que promete muchísimo. Nuestro querido Pablo Galindo es el committer principal, así que ya solo por eso la voy a estar probando muy pronto.

Twitter avatar for @1st1
Yury Selivanov @1st1
WOW.

Bloomberg finally opensourced memray—a new versatile memory profile for Python. Can’t way to use it.

#20
April 22, 2022
Read more

Episodio 29 🐍⚙️

🚀 Ha salido Modin 0.14 con numerosas mejoras de código y de documentación. Si utilizas pandas y estás buscando una forma rápida de acelerar tu código con pocos cambios, ¡Modin te interesa!

Twitter avatar for @modin_project
Modin Project @modin_project
ICYMI: We released Modin version 0.14 last week! 🎊

Read more about the changes in this release in this post! ponder.io/modin-0-14-rel…

ponder.ioModin 0.14 ReleaseAt Ponder, we continue to invest in contributing to Modin to help data teams seamelssly scale up their Pandas workflows. Today, we’re excited to announce
6:06 PM ∙ Apr 6, 2022

También tenemos Plotly 5.7.0 con numerosas mejoras: facilidades para agregar texto a histogramas y mapas de calor, rellenos con patrones, y ¡diagramas de Smith!

💡 Esta semana ha ido de mapas: he descubierto prettymaps, una biblioteca Python para dibujar mapas con una estética exquisita, y geospatial, una colección de paquetes geoespaciales fácilmente instalables a través de conda/mamba.

📚 La empresa Anaconda ha anunciado una reestructuración de su línea de productos, incluyendo su famosa distribución, que vuelve a llamarse Anaconda Distribution y seguirá siendo gratuita para uso personal.

Twitter avatar for @anacondainc
Anaconda @anacondainc
At Anaconda, our drive to improve the capabilities of our product is matched by our drive to improve the way we offer said product to our community. We are pleased to announce that Anaconda has moved to a tier-based product model! Learn more here: bit.ly/3LJclDT.
bit.lyAnaconda | Anaconda “Editions” Repositioned as Feature-Additive…Here at Anaconda, we’re constantly innovating—and our drive to improve the capabilities of our product is matched by our drive to improve the way we offer said product to our community. As such, we are pleased to announce that Anaconda has moved to a tier-based product model. With this approach,…
2:02 PM ∙ Apr 6, 2022
7Likes2Retweets

En otro orden de cosas, me ha gustado mucho este artículo sobre cómo visualizar grandes nubes de puntos utilizando datashader.

Aunque, como dice aquí Will Geary, ¡ojo con los mapas de calor! Recomendable utilizar la I de Moran, una medida de autocorrelación espacial.

Twitter avatar for @wgeary
Will Geary @wgeary
The problem with heatmaps: they can make patterns visible even when, in reality, there are none.

Spatial statistics can help: Local Moran’s I can be used to test for significant clusters and outliers.

#19
April 8, 2022
Read more

Episodio 28 🐍⚙️

🚀 Esta semana ha salido SfePy 2022.1, una biblioteca Python para resolución de ecuaciones en derivadas parciales por el método de los elementos finitos. Entre las novedades, se elimina la clase State y se introduce un nuevo método para manejar variables de estado.

En su día ayudé a crear las recetas de conda de un proyecto similar llamado FEniCS (ahora FEniCSx), que tiene una comunidad más grande y está más enfocado en tener un buen rendimiento. Aquí una charla que di sobre FEniCS en Lima en 2017.

#18
April 1, 2022
Read more

Episodio 27 🐍⚙️

🚀 ¡Más versiones nuevas esta semana! Entre las novedades tenemos:

Prefect 2.0, un framework para crear flujos de procesado de datos, tira la casa por la ventana e introduce muchísimos cambios: decoradores mucho más sencillos para declarar grafos de tareas, todos los componentes liberados bajo Apache 2.0, y un nuevo motor de orquestación llamado Orion, entre otras.

Twitter avatar for @PrefectIO
Prefect @PrefectIO
We have an official Prefect 2.0 release, and it's graduating to beta!

👩‍💻 Finally, Code as Workflows 👉 Apache 2.0, top to bottom 🤓 Ephemeral API ⛰️ Streaming use cases 💻 Brand new UI, included

#17
March 25, 2022
Read more

Episodio 26 🐍⚙️

🚀 Hace unos días salió PyTorch 1.11, con importantes novedades: TorchData implementa el concepto de “Data Pipes” para acceder a fuentes de datos de manera modular, functorch provee transformaciones inspiradas en JAX compatibles con diferenciación automática, y el entrenamiento distribuido usando DistributedDataParallel ya soporta grafos estáticos, con un rendimiento un 10 % mayor.

Twitter avatar for @PyTorch
PyTorch @PyTorch
Announcing PyTorch 1.11, TorchData, and functorch! Highlights: - TorchData, a new library for common modular data loading primitives - functorch adds composable function transforms - DDP static graph optimizations in stable Learn more👇pytorch.org/blog/pytorch-1…
pytorch.orgPyTorch 1.11, TorchData, and functorch are now availableWe are excited to announce the release of PyTorch 1.11 (release notes). This release is composed of over 3,300 commits since 1.10, made by 434 contributors. Along with 1.11, we are releasing beta versions of TorchData and functorch.
7:38 PM ∙ Mar 10, 2022
571Likes113Retweets

Según este análisis de la comunidad ML Contests, PyTorch es ahora mismo la herramienta de aprendizaje profundo más utilizada.

Twitter avatar for @ml_contests
ML Contests @ml_contests
Our analysis of 83 ML competitions in 2021, in collab with @galieoeni: - 🏆 @kaggle dominant with 1/3 of all competitions and 1/2 of $2.7m total prize money - 🐍Almost all winners used Python - 1 used C++! - 🔦77% of Deep Learning solutions used PyTorch
#16
March 18, 2022
Read more

Episodio 25 🐍⚙️🎉

Edición especial para celebrar los 25 episodios, con extra de enlaces y animaciones. ¡Gracias por apoyar el noticiero! 🥂

📣 Queda un mes para PyCamp España, un evento con muchísima trayectoria en Argentina y que por fin se hace en mi país natal: 4 días, pensión completa en una casa rural maravillosa, diversión, buena compañía, y mucho Python. ¡Anímate!

PyCamp 2019 en Mendoza, Argentina (sin mascarillas, antes de la pandemia)

¡Y más! La semana que viene es el primer hackathon de Procesamiento del Lenguaje Natural en español, impulsado por la gente maja de Hugging Face. Si te interesa participar pero no sabes nada de PLN, echa un vistazo a su curso “NLP de cero a cien”.

#15
March 11, 2022
Read more

Episodio 24 🐍⚙️

🚀 ¡Ha salido JupyterLab 3.3.0! Las novedades incluyen un editor visual para las preferencias (¡por fin!), mejoras tanto en el inspector de variables como en el depurador (¿sabías que JupyterLab tenía estas dos cosas?), personalización de las barras de herramientas, un indicador de progreso, y una nueva funcionalidad para abrir un archivo directamente introduciendo la URL. ¡Hora de actualizar!

💡 Esta semana he descubierto pysentimiento, una biblioteca de ánalisis de sentimiento para el idioma español desarrollado por la Universidad de Buenos Aires (¡gracias Juan Manuel!), y stickyland, una curiosa forma de crear dashboards en Jupyter arrastrando celdas como si fuera unlienzo.

#14
March 4, 2022
Read more

Episodio 23 🐍⚙️

📣 La 14ª escuela de verano de Advanced Scientific Programming in Python será este año en Bilbao. Las solicitudes están abiertas hasta el 1 de mayo. ¡Totalmente recomendable! (Nos avisa Sasha por el Telegram de Python Científico)

🚀 ¡Más versiones nuevas esta semana!

  • Nixtla anuncia statsforecast 0.3.0, que anuncia ser “la implementación Python de auto-ARIMA más rápida” (gracias a Numba).

Twitter avatar for @fede_gr
fede garza @fede_gr
I'm thrilled to announce that we're releasing the fastest #autoarima implementation for #Python today! 😍
#13
February 25, 2022
Read more

Episodio 22 🐍⚙️

🚀 Minutos después del anterior episodio salió Dask 2022.02.0, con algunas mejoras y arreglos: soporte para parámetros de conexión personalizados en dask.dataframe.to_sql (por ejemplo, para forzar SSL), parámetros extra en to_zarr y read_json, y nueva función expand_dims (necesaria para que Dask implemente el estándar para arrays).

Dask es un proyecto ya bastante maduro y no se ven cambios drásticos en las versiones nuevas. Si estás buscando una alternativa a PySpark, ¡estás tardando en instalarlo!

Twitter avatar for @dask_dev
Dask @dask_dev
The Dask team has released version 2022.02.0 today! docs.dask.org/en/stable/chan… It includes contributions from 22 people, including 4 new contributors! Some release highlights 🧵:
docs.dask.orgChangelog — Dask documentation
7:59 PM ∙ Feb 11, 2022
43Likes12Retweets

💡 Esta semana estuve probando PDM para gestionar dependencias en Python y me gusta bastante, lo veo como una evolución de Pipenv y Poetry. Puede instalar paquetes localmente sin necesidad de entornos virtuales, similar a como funciona NPM (como se describe en la PEP 582, que aún sigue en borrador).

#12
February 18, 2022
Read more

Episodio 21 🐍⚙️

🔥 ¡Fiesta de versiones nuevas esta semana! Resumiendo, tenemos:

  • SciPy 1.8.0 con numerosas mejoras (nueva API para matrices dispersas compatible con los arrays de NumPy, cálculo de autovalores en matrices dispersas usando PROPACK, separación más clara de la API pública, y mucho más)

  • asv 0.5 con muchos arreglos y mejoras después de un tiempo de inactividad con el objetivo de usarlo para medir el rendimiento de pandas

  • Zarr 2.11.0 (si estás buscando un formato multidimensional de alto rendimiento como alternativa a HDF5 y NetCDF4, este es tu proyecto)

Twitter avatar for @zarr_dev
zarr_dev @zarr_dev
Hi Zarr Community! 🙋🏻‍♂️

We’ve just released the 2.11.0 version of Zarr Python with some major enhancements, bug fixes, maintenance and documentation updates. 🐍

#11
February 11, 2022
Read more
  Newer archives Older archives  
GitHub
Website favicon
LinkedIn
Powered by Buttondown, the easiest way to start and grow your newsletter.