M.djabara de donnes

September 10, 2017 | Autor: Chaouch Sadek | Categoria: DNA replication
Share Embed


Descrição do Produto

Gestion de Répliques dans les Grilles de Données Mohamed Redha Djebbara*, Hafida Belbachir** *Ecole Supérieur d’Informatique – ESI (ex INI) Oued Semar – Alger [email protected] **Lab LSSD Université des Sciences et de Technologies Oran – USTO [email protected] serveurs (clusters). Un logiciel d'interface et de pilotage est installé sur chaque nœud. Il assure le lien entre l'activité locale du nœud, supervisée par les systèmes d'exploitation de chaque serveur, et un outil de supervision et de management global de la grille logiquement unique, mais généralement distribué sur plusieurs machines pour une meilleure fiabilité. L'ensemble des logiciels assurant la gestion de la grille est dénommé l'intergiciel (middleware) de la grille [2]. Une grille de données ne permet pas seulement de découper des fichiers et de les ranger dans plusieurs machines. Elle doit mettre en place des mécanismes de recherche, d’indexation, de réplication et de sécurité pour assurer un accès fiable et permanent. Quand un utilisateur produit une requête pour un dossier, il peut passer par plusieurs noeuds pour arriver au serveur qui contient le dossier, en outre, la latence impliquée peut être considérable en tenant compte de la taille des dossiers. De là, le temps de réponse et la disponibilité des données deviennent les défis principaux à adresser. Afin de répondre à ces défis, une technique importante est de répliquer les données dans différents sites, de sorte qu’un utilisateur puisse accéder aux données d’un site de sa proximité. La réplique peut également aider dans l’équilibrage de la charge de la grille. Pour bénéficier au maximum du gain que peuvent apporter la réplication, leur placement stratégique dans le système est critique. Les trois questions fondamentales auxquelles n'importe quelle stratégie de placement de répliques doit répondre sont : Quand les répliques devraient-elles être créées ? Quels dossiers devraient être répliqués ? Où devraient être placées les répliques ? Les réponses à ces questions nous mènent à différentes stratégies de réplication. Dans le reste du papier, nous allons présenté et commenté plusieurs stratégies de réplication et terminé avec une petite étude comparative.

Résumé - Les grilles de données sont des environnements distribués très étendus où les nœuds sont distribués sur le globe, et les données qui y sont partagées sont très volumineuses. Ainsi, la réplication des données sur plusieurs sites d’une grille de données est une solution efficace afin d’obtenir de bonnes performances en terme de temps de réponse, d’équilibrage de charge et de meilleure disponibilité de données. Pour bénéficier au maximum du gain que peuvent apporter les répliques de données, leur placement stratégique dans le système est critique. Dans ce papier, plusieurs stratégies de gestion de répliques sont étudiées. Ces stratégies essayent de répondre aux questions : quand, où et comment les répliques sont créées et supprimées. Keywords: grilles de données, réplication, disponibilité de données, temps de réponse, placement de répliques.

1. Introduction La grille informatique est un mécanisme important pour bien gérer les ressources informatiques distribuées dans différents endroits géographiques et qui apparaissent comme une unique entité. Une sorte de puissante machine virtuelle serait alors ainsi formée par le partage de nombreuses machines provenant d’organisations administratives différentes. Le niveau actuel des technologies et le fort intérêt qu’elles suscitent font que les grilles semblent offrir une solution intéressante aux problèmes du calcul et du stockage intensif [1]. Certaines applications comme la physique des particules, peuvent générer des quantités astronomiques de données pouvant atteindre plusieurs téraoctets voir quelques péta octets. Il parait donc impossible de stoker ces dernières sur une seule et même machine et on a donc souvent recours à une grille de données. On peut donner une vision simplifiée d’une architecture générique de grilles, c.à.d quelle que soit la technologie utilisée. La grille est physiquement constituée de nœuds, qui sont des processeurs avec leurs disques, l'ensemble étant interconnecté via un réseau. Suivant la voie technologique retenue, ces nœuds sont de serveurs plus ou moins puissants, voire des PC, ou des grappes de

2. Etat de l’art 2.1. Comparaison de quelques stratégies de réplication dans [3] Dans ce travail, les auteurs comparent plusieurs stratégies dynamiques de réplication dans un

1

environnement de grille hiérarchique. Les stratégies sont comparées en mesurant (par simulation) le temps de réponse moyen et la bande passante totale utilisée. Ils ont distingué entre une réplication et mise en antémémoire (appelée aussi mise en cache ou le cashing). La réplique est un phénomène du côté serveur. Un serveur décide quand et où créer une copie d'un de ses dossiers. La mise en antémémoire est définie comme phénomène du côté client. Un client demande un dossier et stocke une copie du dossier localement pour le futur usage. Voici les stratégies utilisées: Stratégie 1: Aucune réplique ou mise en antémémoire: L'ensemble de données est disponible à la racine de la hiérarchie quand la simulation commence. Stratégie 2: Le meilleur client : Chaque noeud maintient un historique détaillé pour chaque dossier qu'il contient et il indique le nombre de requêtes qui concernent ce dossier et les nœuds d’où viennent ces requêtes. Si ce nombre dépasse un seuil prédéfini, le meilleur client pour ce dossier (celui qui a produit la plus part des requêtes) est identifié et le nœud crée alors une réplique auprès de ce nœud. Stratégie 3: Réplication en cascade : Une fois le seuil, pour un dossier, est dépassé à la racine, une réplique est créée au prochain niveau, mais sur le chemin au meilleur client. Par conséquent le nouvel emplacement pour la réplique est un ancêtre du meilleur client. Une fois le seuil pour le dossier est dépassé au niveau 2, il sera alors répliqué à la prochaine rangée inférieure et ainsi de suite. Un dossier beaucoup demandé peut finalement être répliqué au client lui-même. Racine

Ces stratégies sont comparées selon trois modes d’accès aux données, à savoir: P-Random: mode d’accès aléatoire. P1 : les données qui contiennent un degré de localité temporelle, c.à.d les fichiers récemment consultés sont susceptibles d'être à nouveau consultés. P2 : les données contenant un degré de localité temporelle et géographique. Cette dernière veut dire que les fichiers récemment consultés par un client sont susceptibles d'être consultés par les clients à proximité. Les résultats de simulation ont notamment montré que la stratégie 5 réduit le temps de réponse de 30% par rapport à la mise en antémémoire simple lorsque les modes d'accès aux données contiennent à la fois des localités temporelles et géographiques. Lorsque le mode d’accès est aléatoire, la propagation rapide économise la bande passante de façon significative par rapport à d'autres stratégies.

2.2. Placement de répliques dans une grille de topologie hybride, étudié dans [4] Afin de minimiser le coût de communication entre les répliques, les auteurs ont utilisé deux topologies, hiérarchique et anneau. Pour exploiter plus loin les propriétés des deux topologies, une topologie hybride peut être employée dans laquelle les organismes de réplications d’anneau et hiérarchique peuvent être combinés. Afin de vérifier l’utilité du placement de répliques, les auteurs ont testé trois scénarios : Scénario 1 : il n’y a aucune réplique. Scénario 2 : les répliques sont placées au deuxième niveau de l'arbre, c.-à-d. les premiers noeuds intermédiaires. Scénario 3 : les répliques sont placées aux noeuds intermédiaires les plus bas, par conséquent situées plus près des utilisateurs. Les résultats de cette expérience ont montré qu’une meilleure exécution est réalisée quand les répliques sont placées plus prés des utilisateurs (le cas du scénario 3). Les gains sont plus considérables quand les fichiers ont des tailles plus grandes comme dans le cas d’un environnement d’une grille de données. Un autre facteur peut jouer un rôle aussi important et qui est la bande passante entre les nœuds, ça peut présenter des retards supplémentaires très considérables. Tout cela montre que le placement de répliques améliore la fiabilité d’accès aux données mesurée par le temps de réponse.

F1 dépasse le seuil F1 F1 dépasse le seuil F1

A

B

C

Fig. 1. Réplication en cascade. A la racine le nombre de requêtes pour F1 dépasse un seuil et une copie est envoyée au niveau suivant. Eventuellement le seuil est dépassé au niveau suivant et une copie est envoyée au client C. Stratégie 4: Mise en antémémoire simple : Étant donné que les fichiers sont volumineux, et un client n’a suffisamment d'espace que pour stocker un seul fichier à la fois, les fichiers sont remplacés rapidement. Stratégie 5: Mise en antémémoire et réplication en cascade : Cette stratégie combine les stratégies 3 et 4. Le client sauvegarde les fichiers localement. Le serveur identifie régulièrement les fichiers populaires et les propage vers le bas de la hiérarchie. Stratégie 6: diffusion rapide : Dans cette méthode une réplique d’un dossier est stockée à chaque noeud tout au long de son chemin au meilleur client.

2.3. Approche économique réplication proposée dans [5]

de

stratégie

de

Un modèle économique de gestion (création et destruction) de répliques est proposé dans [5]. Dans ce système, un agent est situé sur chaque nœud de stockage 2

et se sert d’un protocole d’« enchères » pour choisir quelle réplique d’un fichier est à utiliser. Lorsqu’une donnée est requise sur un site, l’agent concerné va interroger les serveurs de stockage. Le serveur qui remporte l’enchère est celui qui a proposé le prix le plus faible. Pour chaque serveur interrogé, si la donnée est présente alors le prix fixé est proportionnel au temps estimé pour le transfert de fichier entre le serveur de stockage considéré et le site demandeur. Si la donnée n’est pas présente, le serveur de stockage a la possibilité de déclencher lui aussi une demande d’enchère pour acquérir la donnée s’il estime que les revenus qu’elle va lui apporter seront plus grands que le coût de son achat. Une enchère initiale peut donc engendrer des enchères en cascade. Bien évidemment, cela suppose que les serveurs de stockage ont un moyen de prédiction de l’utilisation des données pour pouvoir estimer les revenues qu’elles peuvent générer. Bien que ce modèle a donné de bons résultats, due à sa capacité de déterminer les dossiers les plus accéder à travers l'historique d'accès et de les répliquer en conséquence, mais n’a pas pris en considération le coût de stockage.

le meilleur placement pour ces répliques. La topologie de la grille de données étudiée est hiérarchique. Le problème de placement optimal de répliques est formulé sous forme d’ensembles de répliques qui ont comme but de minimiser la charge de travail sur la racine et d’équilibrer la charge de travail de la grille. Les solutions proposées sont basées sur l’estimation de l’utilisation des données de différents sites. L’algorithme proposé dans [7] détermine efficacement les endroits de répliques si la charge de travail maximale de chaque nœud et le nombre de répliques ont été bien déterminés. Un autre algorithme a été proposé pour déterminer le nombre de répliques requis pour s’assurer que la charge de travail maximale sur chaque réplique ne dépasse pas un certain seuil.

2.6. Algorithme de placement et d’entretien de répliques proposé dans [8] Un algorithme d’entretien de répliques proposé dans [8] redistribue les répliques si les performances du système se dégradent d’une manière significative. On commence par l’idée que les dossiers d’une grille sont très volumineux. Cependant, il n’est pas évident de répliquer n’importe quel dossier et de le placer dans n’importe quel site d’où la nécessité de localiser d’abord les sites candidats pour placer les répliques en optimisant bien sûr le temps de transfert des dossiers et en satisfaisant le grand nombre de requêtes utilisateurs. La bande passante joue un rôle important dans le transfert de fichiers. Pour cela, il est important de placer une réplique dans un site qui est relié à ses voisins d’une bande passante limitée. Dans ce papier, les auteurs ont pris en priorité l’état du réseau ainsi que les requêtes utilisateurs avant le placement des répliques. Leur approche est dynamique, donc elle s’adapte au changement du comportement d’utilisateur et du système. Ils ont employé trois modèles, à savoir le p-médian, le p-center et le multi-objective pour sélectionner les sites candidats pour accueillir les répliques. Le p-médian place la réplique dans des sites de telle sorte d’optimiser le temps de réponse moyen, qui est le temps écoulé pour transférer un dossier à partir de l'emplacement de réplique le plus proche. Le temps de réponse est calculé en multipliant le nombre de requêtes dans un site i avec le temps de réponse du site i. Le modèle p-center choisit les sites candidats pour accueillir une réplique en minimisant le maximum de temps de réponse. L’approche multiobjective combine les deux modèles p-center et p-médian, pour décider où placer une réplique. Ce modèle ne garde aucun site demandé (interrogé par une requête) qui se trouve trop loin du site de réplique candidat. Pour évaluer leur approche, ils ont utilisé le simulateur OptorSim [9,10]. Les résultats de simulation démontrent

2.4. Réplication basée sur l’hiérarchie de la bande passante proposée dans [6] D’autres types d’algorithmes prennent en compte la localité des données. Les serveurs sont regroupés en différentes régions en suivant la topologie du réseau. Les communications entre les nœuds d’une même région devraient être assez rapide. Lorsque une donnée est nécessaire sur un serveur et qu’il n’y a plus de place pour la stocker alors l’algorithme BHR (Bandwidth Hierarchy based Replication) proposé cherchera à récupérer la donnée en question uniquement si elle n’est pas déjà présente sur un des nœuds de la même région. Si la donnée n’est pas présente, alors de la place est faite sur le serveur en supprimant les données les plus anciennement accédées et qui sont présentes ailleurs dans la région. Le principe de l’approche de BHR est basé sur la largeur de la bande passante. L’algorithme proposé a comme but de réduire le temps d’accès en exploitant la réplique la plus proche en terme de largeur de bande.

2.5. Algorithme de placement optimal de répliques proposé dans [7] Dans [7], en plus du rôle important que joue le placement de répliques, les auteurs ont vu que le nombre de répliques doit être optimisé. D’un côté, autant qu’on a de répliques, on a un accès rapide aux données, mais d’un autre côté, le nombre élevé de répliques est coûteux du point de vue plusieurs facteurs tels que le maintient de la cohérence des répliques et espaces de stockage. Pour cela, ils ont opté pour un algorithme qui détermine efficacement le nombre minimum de répliques exigées et 3

que le p-médian et multi-objective présentent de meilleures performances que le modèle p-center.

dynamique dans des grilles de données hiérarchiques basées sur des dossiers dits populaires. Ils ont évalué leur algorithme en utilisant le simulateur OptorSim en vérifiant le temps d’accès et la largeur de bande utilisée. Ils partent d’un principe que le maintien des copies locales sur chaque site est coûteux ; de plus le stockage de telles masses de données d’une façon centralisée et les accès aux différents sites de la grille n’est pas possible à cause de la lenteur de l’accès à distance aux données. A partir de ces critères, les auteurs posent des défis tels que la disponibilité des données et l’optimisation d’accès. Pour traiter le problème de déplacement de dossiers populaires en cas où il n y a plus d’espace libre, une stratégie de remplacement est nécessaire de sorte que des dossiers populaires soient maintenus et pas déplacés quand des nouveaux dossiers arrivent. Pour cela, ils utilisent une forme modifiée de la politique de remplacement, le moins utilisé récemment (Least Recently Used LRU), qui est basée sur la popularité pour le remplacement de répliques avec une contrainte supplémentaire pour s'assurer que des répliques créées dans un intervalle courant ne seront pas remplacées. Le processus entier de réplication est fait en deux phases: a. Agrégation d’accès de bas en haut : la phase d’agrégation de bas en haut regroupe des enregistrements d’accès historiques pour chaque dossier aux rangées supérieures, étape par étape jusqu’à la racine. Le calcul additionne simplement les comptes d'accès pour les enregistrements dont les noeuds sont des enfants de mêmes parents et qui se rapportent aux mêmes dossiers. Le résultat de l'agrégation est stocké dans le noeud de parent. Un exemple de calcul des comptes d'accès pour un dossier (F) est montré sur la figure 2.

2.7. Stratégie de placement de répliques basée sur un modèle de coût, proposée dans [11] Dans ce travail, les auteurs présentent une contribution à une stratégie de placement des répliques, dont le but est de minimiser les coûts d’accès aux données répliquées. Les décisions de placement sont basées sur un modèle de coût, qui dépend de plusieurs facteurs tels que la largeur de bande, la taille de la donnée, la latence du réseau, et le nombre d’opérations de lecture et d’écriture. Ce qui facilitera la prise de décision pour la création ou le déplacement des répliques à des emplacements adéquats, ainsi que leur suppression. Le calcul du coût global d'accès à une donnée d située au nœud n, qui sert un ensemble de clients qui interrogent (lecture ou écriture) la donnée d, revient à calculer la somme de coût de transfert de la donnée d, le coût du calcul de traitement de l’opération (lecture ou écriture) par le nœud n et le coût de propagation des mises à jours. En se basant sur ce modèle, un algorithme de placement de répliques se charge de la gestion de répliques : création, suppression ou même déplacement. Cette gestion est basée aussi sur le nombre d’écritures et de lectures effectuées sur une réplique de la donnée d située au nœud n par les clients à un instant donné. Pour une topologie d’arbre, dans le cas où des lectures seulement sont effectuées par les clients, il est évident que la meilleure solution est celle où toutes les répliques seront placées sur tous les nœuds de l’avant dernier niveau (plus prés de l’utilisateur). Or, pour le cas où des écritures seulement sont effectuées, la meilleure solution est celle de n’avoir aucune réplique. Après l’arrivée des requêtes, on vérifie les valeurs du rapport entre le nombre de lectures et d’écritures et on prend une décision de l’emplacement des répliques concernées selon l’algorithme de coût proposé. Pour simuler ce modèle de coût, on a utilisé un simulateur appelé GrepSim qui permet de générer n’importe quelle topologie hiérarchique de type arbre. L’algorithme proposé est comparé avec deux autres modèles de placement. Le premier est basé sur l’algorithme du meilleur client, et le deuxième est basé sur l’algorithme du père commun. Les résultats montrent que l'utilisation de ce modèle améliore les performances d'accès aux données dans la grille. Ces résultats sont prometteurs, mais ils sont basés sur des environnements de travail spécifiques.

Racine

Clients Comptes d’accès

Fig. 2. Les comptes d’agrégation d’accès de bas en haut, placement de répliques de haut en bas. b. Placement de répliques de haut en bas : en utilisant les informations agrégées, les répliques sont placées de haut vers le fond de l’arbre. L’idée est de traverser le fond de la hiérarchie tant que le compte d’accès agrégé est supérieur ou égal à un seuil prédéfini qui est employé pour déterminer les dossiers populaires. Le seuil est choisi à base des informations d’accès historiques. Une réplique est placée sur un nœud si le compte d’accès d’un ou de

2.8. Stratégie de placement basée sur les dossiers populaires proposée dans [12] Dans un autre travail propose dans [12], les auteurs ont proposé un algorithme de placement de répliques 4

plusieurs de ses enfants est inférieur au seuil. Un exemple de placement de répliques de haut en bas est également montré sur la figure 2 où nous traversons l'arbre de la racine au nœud b à travers le nœud a du moment que les deux nœuds ont un compte d’accès supérieur au seuil (5). A partir du nœud b, on ne peut pas accéder au nœud c puisque le compte d’accès de ce dernier (4) est inférieur au seuil ; dans ce cas une réplique est placée dans le nœud b. Le nœud d est aussi traversé puisque son compte d’accès (6) est supérieur au seuil. Une réplique est placée dans ce nœud puisque aucun des comptes d’accès de ses fils ne dépasse pas le seuil. L’algorithme proposé a été comparé avec d’autres approches telles que diffusion rapide, meilleur client, réplication en cascade et mise en antémémoire. Les résultats de la simulation ont prouvé que cet algorithme peut diminuer le temps d’exécution de manière significative et réduire la consommation de la bande passante par rapport aux autres approches.

Couche d’index de répliques Couche de catalogue de répliques locales

Couche de ressources physiques

Fig. 3. Modèle de topologie de répliques. Un noeud PN (Nid) peut être modelé comme un processeur semi-autonome qui a deux partitions de stockage logiques. La première partition est utilisée pour stocker les éléments de données qu'un nœud veut publier aux autres nœuds, on l'appelle partition de données. La deuxième partition est un espace partagé qui est utilisé pour stocker la table de routage qui contient des informations du plan de distribution (mapping) concernant les demandes de routage. Ils ont utilisé l'approche de localisation des données à travers leurs noms du domaine logique, ils utilisent l'algorithme de routage de Chord [14] pour stocker le plan de distribution du nom logique au site de ressource physique et répliquer ces plans d'une manière adaptative parmi les noeuds d'index de répliques. La politique de placement de répliques est formulée comme un problème d'optimisation en comparant l'entretien de répliques et le coût de création avec les gains d'accès aux données. Dans l'algorithme proposé, chaque nœud de réplique collecte les requêtes d'accès de ses voisins y compris ses descendants et ses ascendants et prend des décisions localement pour changer le schéma d'attribution de répliques. L'algorithme est exécuté à chaque nœud de réplique périodiquement et indépendamment. Afin d'évaluer cette approche, les auteurs ont utilisé le simulateur GridNet pour modéliser les différentes configurations de la grille de données en appliquant ces algorithmes. Les résultats expérimentaux montrent que l'algorithme proposé peut améliorer les performances du système d'une manière considérable, réduire le trafic du réseau et donner une meilleure performance de mises à jour si les répliques sont placées dans des sites voisins à travers les tables de routage de répliques.

2.9. Stratégie de localisation et de placement de répliques proposée dans [13] Dans un autre travail [13], pour aborder le problème de gestion de répliques, les auteurs combinent entre la topologie d'arbre de l'architecture grille avec la topologie multi anneau de l'architecture peer-to-peer. D’un côté, ils peuvent avoir une meilleure performance pour les mises à jour des réplications avec la topologie d’arbre ; d’un autre côté, avec la table d’hachage dynamique de l’architecture Peer-to-Peer, ils peuvent construire un catalogue distribué de répliques qui comporte les propriétés d’équilibrage de charge, d’auto organisation et de tolérance aux fautes. Selon l’architecture proposée dans figure 3, il y a trois couches : a. couche de ressources physique : La couche de ressources physique se compose de noeuds de stockage de données physiques (PN) et qui sont placés dans le niveau le plus bas. b. couche de catalogue de répliques locales (LRC) : À ce niveau des catalogues de répliques sont stockés pour maintenir des informations du domaine logique local, un site ou un système de stockage. c. couche d'index de répliques : Tous les parents de LRC sont employés comme index pour agréger des informations sur les plans contenus dans l'un ou plusieurs LRCs, ces nœuds sont dits noeuds d'index de répliques (RIs). En se basant sur ce modèle, les auteurs ont proposé un algorithme adaptatif : l'arrangement de répliques dans les noeuds de la grille est modifié chaque fois que des changements se produisent dans le modèle lecture/écriture des noeuds de la grille. Il existe deux aspects de recherche sur la gestion de répliques: la politique de placement de répliques et le mécanisme de localisation de répliques.

3. Etude comparative La comparaison de différentes stratégies de réplication dépend de plusieurs paramètres tels que : a. Temps de réponse: C'est le temps qui s'écoule quand un noeud envoie une demande d'un dossier jusqu'à ce qu'il 5

reçoive le fichier complet. Si une copie locale du dossier existe, le temps de réponse est assumé d'être zéro. Le temps de réponse dépend de deux facteurs : - La bande passante : inclut la largeur de la bande consommée pour des transferts de données entre un nœud qui demande (à travers une requête) un dossier et un serveur qui contient une réplique de ce dossier. - Taille du dossier demandé par le client. b. Mises à jour: le coût de propagation de mises à jour des répliques de la grille. c. Espace de stockage: c’est l’espace utilisé après la création de répliques. Le tableau suivant présente les travaux cités en section 2 et les paramètres pris en considération dans leurs résultats de simulation: Table 1. Paramètres pris en considération par les travaux. Stratégies de placement

[2][Ranganathan 01] [5][Bell 03] [6][Park 03] [7][Lamehamedi 02] [8][Pangfeng 06] [9][Rahman 07] [10][Shorfuzzam 08] [11][Belalem 07] [12][Gu 08]

Temps de réponse

Mises à jour

Espace de stockage

+ + + + + + + + +

+ +

+ + + + -

Sur la base de ces facteurs notre contribution sera basée sur : comment déterminer le seuil d’une manière dynamique afin de décider quand et où répliquer.

5. Références [1]. A. Vernois : Ordonnancement et réplication de données bioinformatiques dans un contexte de grille de calcul. Thèse PHD octobre 2006. [2]. M. Soberman « Les grilles informatiques - état de l'art et déploiement », CNRS / STIC, 2005. [3]. K. Ranganathan, I. Foster: Identifying Dynamic Replication Strategies for a High Performance Data Grid. Dans Proc. of the Second International Workshop on Grid Computing (2001). [4]. H. Lamehamedi, B. Szymanski, Z. Shentu, E. Deelman: Data replication strategies in Grid environments. In Proceedings of the 5th International Conference (ICA3PP’02). IEEE Press, Los Alamitos, CA, 2002. [5]. W. Bell, D. G. Cameron, R. Carvajal-Schiaffino, A. P. Millar, K. Stockinger, F. Zini : Evaluation of an EconomyBased File Replication Strategy in Data-Grids. Dans Third International Symposium on Cluster Computing and the Grid (CC-GRID) (2003). [6]. S. M. Park, J. H. Kim, Y. B. Ko, W. S. Yoon: Dynamic Data Grid Replication Strategy Based on Internet Hierarchy. Dans GCC (2) (2003), pp. 838–846. [7]. L. Pangfeng, W. Jan-Jan: Optimal Replica Placement Strategy for Hierarchical Data Grid Systems. Taipei, Taiwan, R.O.C 2006. [8]. R. M. Rahman, K. Barker, R. Alhajj: Replica Placement Strategies in Data Grid, Springer Science + Business Media B.V. 2007. [9]. W. Bell, D. G. Cameron, L. Capozza, A. P. Millar, K. Stockinger, F. Zini : Simulation of Dynamic Grid Replication Strategies in OptorSim. Dans Proc. of the 3rd Int’l IEEE Wksp on Grid Computing 2002. [10]. W. Bell, D. G. Cameron, L. Capozza, A. P. Millar, Stockinger, K., Zini, F.: OptorSim – a Grid simulator for studying dynamic data replication strategies. Int. J. High Perform. Comput. Appl. 17(4), (2003). [11]. G. Belalem, F. Bouharaoua : Stratégie de Placement Dynamique des Répliques dans les Grilles de Données, 4th International Conference: Sciences of Electronic, Technologies of Information and Telecommunications, SETIT and IEEE, March 2007. [12]. M. Shorfuzzaman, P. Graham, R. Eskicioglu: PopularityDriven Dynamic Replica Placement in Hierarchical Data Grids, 9th Inter Conf on Paral and Distrib Comp App and Tech; IEEE 2008, pp. 524-531. [13]. Q. Gu, B. Chen, Y. Zhang : Dynamic Replica Placement and Location Strategies for Data Grid, in proc of International Conference on Computer Science and Soft Engineering, 978-0-7695-3336-0/ IEEE 2008, pp. 35-40. [14]. L. Stoica, R. Morris, D. Karger, M. F. Kaashoek, H. Balakrishnan : Chord: A Scalable Peer to Peer Lookup Service for Internet Applications, Proc of ACM SIGCOMM’2001, San Diego, Aug 2001, pp.160-177.

Simulateur

Privé Optorsim Optorsim NS / Optorsim Optorsim Grepsim Gridnet

Si nous prenons l’exemple du travail de [Ranganathan 01], qui compare quelques stratégies de réplication ; la comparaison est basée sur les résultats du temps de réponse, mais ne tient pas compte de l’espace de stockage utilisé par les répliques et ne traite que les requêtes en lecture seul.

4. Conclusion et travaux futurs Dans ce papier, nous avons étudié quelques stratégies de placement de répliques dans les grilles de donnée. La comparaison des stratégies de placement de répliques est basée sur un ou plusieurs paramètres tels que : le temps de réponse, les mises à jour et l’espace de stockage. Parmi les techniques utilisées dans ces stratégies pour le placement de répliques est celles qui sont basées sur le nombre de demandes de dossiers [3,11], autrement dit, le compte d’accès. Lorsque ce compte d’accès dépasse un seuil, qui est généralement prédéfini, le processus de réplication duplique le dossier demandé. Le seuil est fixé pour tous les niveaux de l’arbre, et pour n’importe quelle donnée. Plusieurs facteurs peuvent influer sur la précision du seuil telles que la largeur de la bande passante entre les clients et les sources de données, et la taille de la donnée demandée par un client. 6

Lihat lebih banyak...

Comentários

Copyright © 2017 DADOSPDF Inc.