Etiquetas

,

Artículo publicado por Sarah Charley el 24 de marzo de 2016 en Symmetry Magazine

El software compatible y sostenible podría revolucionar la investigación en física de alta energía.

La World Wide Web puede que se haya inventado en el CERN, pero creció y se cultivó fuera del mismo. Ahora, un grupo de físicos del Gran Colisionador de Hadrones está buscando fuera de la academia para resolver uno de los mayores desafíos de la física — crear un framework de software que sea sofisticado, sostenible y más compatible con el resto del mundo.

“El software que usamos para construir el LHC y realizar nuestros análisis tiene 20 años de antigüedad”, comenta Peter Elmer, físico de la Universidad de Princeton. “La tecnología evoluciona, por lo que tenemos que preguntarnos, ¿nuestro software sigue teniendo sentido en la actualidad? ¿Seguirá haciendo lo que necesitamos en los próximos 20 o 30 años?”.

Colisiones en ATLAS

Colisiones en ATLAS

Elmer es parte de una nueva iniciativa patrocinada por la Fundación Nacional de Ciencia conocida como proyecto DIANA/HEP, o Data Intensive ANAlysis for High Energy Physics (Análisis Intensivo de Datos para Física de Alta Energía). El proyecto DIANA tiene un objetivo principal: mejorar el software de física de alta energía incorporando los algoritmos y mejores prácticas de otras disciplinas.

“Queremos evitar que la física vuelva a inventar la rueda”, dice Kyle Cranmer, físico de la Universidad de Nueva York y cofundador del proyecto DIANA. “Ha habido una explosión de software científico de alta calidad en los últimos años. Queremos empezar a incorporar los mejores productos en nuestra investigación de modo que podamos realizar una mejor ciencia de modo más eficiente”.

DIANA es el primer proyecto explícitamente patrocinado para trabajar en un software sostenible, pero no sólo con el objetivo de mejorar la forma en que los físicos de alta energía realizan sus análisis. En 2010 el físico Noel Dawe empezó el proyecto rootpy, una iniciativa comunitaria dirigida a mejorar el interfaz entre ROOT y Python.

“ROOT es la herramienta central que usan todos los científicos de mi campo”, señala Dawe, que estudiaba en la Universidad Simon Fraser cuando empezó rootpy y actualmente es becario en la Universidad de Melbourne. “Hace muchas cosas, pero a veces la mejor herramienta es otra. Empecé rootpy como proyecto colateral cuando estudiaba debido a que quería encontrar formas de conectar el código de ROOT con otras herramientas”.

Los físicos empezaron a desarrollar ROOT en la década de 1990 en el lenguaje C++. Este software ha evolucionado mucho desde entonces, pero lentamente ha ido quedando desfasado, es engorroso, y difícil de conectar con las nuevas herramientas científicas desarrolladas en lenguajes como Python o Julia. C++ también ha evolucionado en el transcurso de los últimos 20 años, pero los físicos deben mantener un nivel de compatibilidad hacia atrás de modo que se conserve parte del código antiguo.

“Está en una burbuja”, comenta Gilles Louppe, experto en aprendizaje máquina que trabaja en el proyecto DIANA. “Es difícil entrar y difícil salir. Está aislado del resto del mundo”.

Antes de llegar al CERN, Louppe era desarrollador del núcleo de la plataforma de aprendizaje máquina scikit-learn, una biblioteca de código abierto de herramientas versátiles para minería y análisis de datos. Actualmente es investigador de posdoctorado en la Universidad de Nueva York y trabaja estrechamente con físicos para mejorar la interoperatividad entre los productos de software comunes del LHC y el ecosistema científico de python. Una mejor interoperatividad facilitará a los científicos el poder beneficiarse de los avances globales en el aprendizaje máquina y el análisis de datos.

“El software y la tecnología están cambiando muy rápidamente”, comenta Cranmer. “Podemos aprovechar los frutos que la industria y todo el mundo está obteniendo”.

Una tendencia que se extiende con rapidez en la comunidad científica que trabaja con datos es una libreta computacional: un híbrido de código de análisis, gráficos y texto narrativo. El Proyecto Jupyter está desarrollando una tecnología que permite usar estas libretas. Dos desarrolladores del equipo de Jupyter recientemente visitaron el CERN para trabajar junto con el equipo de ROOT y desarrollar una versión para ROOT, el ROOTbook.

“ROOTbook representa una confluencia de dos comunidades y dos tecnologías”, dice Cranmer.

Patrones físicos

Para realizar tareas tales como identificar y etiquetar partículas, los físicos usan el aprendizaje máquina. Básicamente entrenan al software del LHC para que identifique ciertos patrones en los datos alimentándolo con miles de simulaciones. De acuerdo con Elmer, esto es similar a un gran problema del tipo “una aguja en un pajar”.

“Imagine el libro Dónde está Wally, pero en lugar de buscar un Wally en una imagen, hay distintos tipos de Wallys y 100 000 imágenes cada segundo que deben ser analizadas”.

Pero, ¿qué pasaría si estos programas pudiesen aprender a reconocer patrones por sí mismos con una mínima ayuda? A un pequeño paso del LHC hay una industria que genera miles de millones de dólares que está haciendo justamente esto.

“Cuando tomo una imagen con mi iPhone, instantáneamente interpreta los miles de píxeles para identificar la cara de una persona”, comenta Elmer. Compañías como Facebook y Google también están incorporando cada vez más técnicas de aprendizaje máquina para identificar y catalogar información de modo que esté instantáneamente accesible en cualquier parte del mundo.

Organizaciones como Google, Facebook y la rusa Yandex están publicando cada vez más herramientas de código abierto. Científicos de otras disciplinas, como la astronomía, están incorporando esas herramientas en su modo de hacer ciencia. Cranmer espera que la física de alta energía cambiará el modelo para facilitar y aprovechar estas nuevas posibilidades también.

“El nuevo software pueden expandir el alance de lo que hacemos en el LHC”, señala Cranmer. “El potencial el difícil de imaginar”.

Anuncios