B. Folliot, P. Sens GatoStar : A Fault Tolerant Load Sharing Facility for Parallel Applications Ce papier présente pourquoi et comment unifier des gestion­ naires de partage de charge et de tolérance aux fautes. La réalisation d'un tel gestionnaire, GatoStar, est présenté et dis­ cuté. Ce système repose sur l'intégration de deux applications développées au-dessus du système Unix : Gatos et Star. Gatos est un gestionnaire de partage de charge qui répartit automatiquement les applications parallèles sur un ensemble hétérogène de sites en fonction d'algorithmes d'allocation multi-critères. Star est un gestionnaire de tolérance aux fautes qui reprend automatique­ ment les processus s'exécutant sur des machines défaillantes en utilisant une technique de points de reprise et de journalisation de messages. L'avantage principal de cette approche est d'augmenter les performances de la tolérance aux fautes en tirant parti des algorithmes de partage de charge lors de l'allocation et de la reprise des processus. Cette unification n'augmente pas uniquement l'efficacité des deux systèmes mais évite également la redondance de nombreux mécanismes. En effet, chacun des systèmes a besoin d'intégrer au moins trois mécanismes communs permettant de maintenir une connaissance globale des processus s'exécutant, de détecter la défaillance de site, et de transférer des informa­ tions concernant l'ensemble des machines. L'unification s'appuie sur un anneau logique utilisé pour la détection les pannes de site et l'acquisition des informations sur l'état des machines. Ainsi, toutes les informations nécessaires sont obtenues à faible coût par rapport aux deux systèmes pris de manière indépendante. This paper presents how and why to unify load sharing and fault tolerance facilities. A realization of a fault tolerant load sharing facility, GatoStar, is presented and discussed. It is based on the integration of two applications developed on top of Unix: Gatos and Star. Gatos is a load sharing manager which automatically distributes parallel applications among heteroge­ neous hosts according to multicriteria allocation algorithms. Star is a software fault tolerance manager which automatically recovers processes of faulty machines based on checkpointing and message logging. The main advantage of this approach is to in­ crease fault tolerant performance by taking advantage of the load sharing policies when allocating or recovering processes. This unification not only improves the efficiency of both facilities but avoids many redundancies mechanisms between them. Indeed, each facility needs to manage at least three common features: global knowledge of the running processors, a crash detection mechanism and remote process management. The backbone of this unification is a logical ring of communication for host crash de­ tection and for host related information transfer. Thus, all necessary information is acquired with a relatively low cost of messages compared to the two systems taken independently.