Siminole is an ANR COSINUS project from 2010 to 2014.

The goal is to make simulations more efficient in three scenarios: optimization, inference, and discriminative learning. The project is motivated by the design and inference problems we are facing in two major astroparticle physics experiments, the Pierre Auger and the JEM-EUSO experiments.


Summary

Simulation lies at the heart of most of today’s large scale experiments. Since the appearance of heavy computational machinery, simulation has become the third pillar of scientific discovery beside experimentation and theoretical model building. Its most important role is to connect models at different levels of resolution. Simulation can complement or, in certain cases, replace expensive experimentation; it can be used to validate high-level models using low-level experimental data; it can serve as an engineering aid for designing tools, machines, or detectors. On the other hand, simulation has also become the bottleneck of these applications so a lot of research has been devoted to find how to carry out simulations more efficiently. Most of the time these studies follow one of two approaches: they either delve into the inner workings of the simulator and try to improve it algorithmically, or they attack the problem by implementing simulators on various high-end computing devices. In this project we follow a third approach: we propose to use simulators more efficiently by considering them as a black box, and minimizing the number of calls to the simulator for accomplishing certain tasks.

Simulators can be used in different ways for solving particular problems. In this project we identified three common scenarios. In probabilistic inference, the goal is to find values for some input parameters that generate simulations similar to observed data. Our goal is to formalize a data-driven simulation setup, and to replace the sub-optimal naive exhaustive search by an approach based on Monte-Carlo Markov chain (MCMC) techniques. In the second scenario, simulation is used in an optimization loop. When designing complex instruments, tools, or machines, it is a common situation that the simulated instrument is assigned a utility (or cost), and the goal of the procedure is to find regions of the parameter space where the utility is high (or the cost is low). As in the previous scenario, exhaustive search is highly sub-optimal. In this task of the project we will formalize the problem as utility-driven simulation in a stochastic optimization setup, and apply powerful adaptive techniques developed recently for optimizing expensive black-box functions. In the third scenario, a large set of simulations is used to “discover” interesting features, for example, features that predict well certain generating parameters. These “observables” are then used on real data to estimate or reconstruct generative parameters. The goal of this task is to optimize the use of simulations by replacing the “manual” discovery of observables using machine learning algorithms.

The research outlined above is directly motivated by the design and inference problems we are facing in two major astroparticle physics experiments, the Pierre Auger experiment and the JEM-EUSO experiment. Their goal is the same: to study the properties of ultra-high energy cosmic ray particles by observing the particle cascade generated by the collision of the cosmic ray particle and atmospheric particles. The Auger experiment employs two independent terrestrial detectors covering 3000 square kilometers on the Argentinian pampas, whereas the JEM-EUSO telescope will be on orbit on the Japanese Experiment Module of the International Space Station starting in 2015. The techniques outlined in the previous paragraph will be directly usable for the statistical data analysis in both experiments and for the design of the on-board software of the JEM-EUSO experiment. The methodological development is motivated directly by these two concrete applications, but the proposed techniques will be generally usable in other simulation-heavy application domains.


Résumé

La simulation constitue dorénavant un enjeu majeur dans la plupart des expériences scientifiques de grande échelle. Avec le développement des techniques et des moyens de calcul, la simulation est véritablement devenue le troisième pilier des découvertes scientifiques actuelles, à côté des deux premiers piliers que sont la modélisation et l’expérimentation. Le rôle le plus important de la simulation est de permettre le lien entre les différents niveaux de modélisation. La simulation complémente voire, dans certains cas, supplée l’expérimentation. Elle peut aussi être utilisée pour valider des modèles de haut niveau à partir de données expérimentales. La simulation peut enfin servir d’outil de conception pour mettre au point des dispositifs expérimentaux. En inversant la perspective, on constate que la simulation est également souvent devenue un facteur limitant dans beaucoup de ces applications où la question de l’efficacité numérique de la simulation constitue un verrou fondamental. Les approches les plus classiques face à cette question consistent soit à rechercher des modifications internes des principes de simulation de façon à accroître leur efficacité soit à tabler sur une implémentation sur du matériel à hautes performances pour rendre la simulation viable. Dans ce projet, nous travaillons dans une optique différente dans laquelle les méthodes de simulations sont, partiellement, vues comme des “boîtes noires”, éventuellement paramétrées, que l’on cherche à utiliser le plus efficacement possible (notamment à travers l’ajustement adaptatif de paramètres de simulation) pour effectuer une tâche donnée.

Dans le cadre du projet, nous avons identifiés trois scénarios spécifiques d’utilisation des méthodes de simulation. Dans le premier, correspondant à l’inférence statistique probabiliste, l’outil principal considéré est celui des méthodes de Monte Carlo par chaîne de Markov (MCMC) qui constituent une alternative efficace aux approches, plus usuelles dans le cadre de la physique expérimentale, d’exploration exhaustive sur une grille. Dans le second scénario, le but est d’explorer l’espace des paramètres de façon à maximiser une fonction d’utilité (ou minimiser une fonction de coût). Dans ce deuxième scénario, nous souhaitons focaliser nos efforts autour des méthodes stochastiques d’optimisation qui ont connu récemment des développement méthodologiques très significatifs. Enfin, dans le dernier scénario, le but de la simulation est de permettre la découverte de caractéristiques pertinentes des données, par exemple, d’observables qui prédisent bien certains paramètres d’intérêt du système. Là encore, le but est de fournir des outils, issus des approches d’apprentissage artificiel, fournissant une alternative à la recherche exhaustive d’observables du système.

Les scénarios considérés dans le cadre de ce projet sont directement liés aux tâches d’inférence et de conception suscitées par deux expériences majeures dans le domaine de la physique des astroparticules, les expériences Pierre Auger et JEM-EUSO. Dans les deux cas, le but recherché est l’étude des propriétés des rayons cosmiques à très haute énergie à partir de l’observation des gerbes de particules générées par la collision de particules issues de rayons cosmiques avec des particules atmosphériques. L’expérience Auger et d’ores et déjà déployée sur 3000 kilomètres carrés de la pampa argentine tandis que le télescope JEM-EUSO est prévu pour être mis en place sur la station orbitale internationale à partir de 2015. Bien que les développements méthodologiques évoqués ci-dessus soient motivés par ces deux applications concrètes, les techniques développées ont également pour but d’être directement utilisables dans d’autres applications nécessitant des simulations intensives.

Comments are closed.