Optimisation de requêtes en environnements multi-clouds - Optimisation Dynamique de Requêtes Réparties à grande échelle
Theses Year : 2023

Query optimisation within multi-cloud environments

Optimisation de requêtes en environnements multi-clouds

Abstract

The increasing volume of public data is leading their producers to outsource their dissemination to cloud providers, sometimes as relational databases hosted on Database-as-a-Service (DBaaS) offers. Studying these datasets may involve cross-analysis which can be achieved using multi-cloud queries if the source relations are hosted by several cloud providers. With this in mind, a middleware managing the orchestration of the outsourcing of the multi-cloud queries to the providers they involve was proposed. It calculates quotations for its users, in order to inform them of the performance and monetary cost of their queries, on the basis of multi-cloud execution plans. The latter are produced by an optimiser taking as an input estimates on the sub-queries' intermediate results. Two search strategies was proposed. The first one is exhaustive and can find good execution plans for queries involving few providers. However, its factorial complexity led to the development of a second strategy that is random and iterative. The latter is designed to explore more quickly a wide variety of execution plans while not entailing a combinatorial explosion. The estimates can be erroneous, hence reducing the accuracy of the quotations and ultimately leading to the execution of sub-optimal plans. In order to protect both the middleware and its users from the consequences of these errors, a multi-cloud cost model and a dynamic optimisation method was proposed. The former corrects the estimates provided to the optimiser using online machine learning models. The latter re-optimises the multi-cloud execution plans according to the actual intermediate results using a multi-agent system. Experiments during this thesis showed that multi-cloud queries were financially efficient when compared to downloading the data then need and executing them on a single cloud provider. The benefits of each of the search strategies, the multi-cloud cost model and the dynamic optimisation method were also evaluated.
La massification des données publiques pousse leurs producteurs à sous-traiter leur diffusion auprès de fournisseurs cloud, parfois sous la forme de bases de données relationnelles hébergées sous des offres de type Database-as-a-Service (DBaaS). L'étude de ces jeux de données peut passer par leur analyse croisée, qui peut être effectuée à l'aide de requêtes multi-clouds lorsque les relations sur lesquelles elles portent sont hébergées par des fournisseurs cloud différents. Dans cette perspective, un middleware gérant l'orchestration de la sous-traitance des requêtes multi-clouds auprès des fournisseurs qu'elles impliquent a été proposé. Il calcule des devis pour ses utilisateurs, afin de les informer des performances et du coût monétaire de leurs requêtes. Ces devis sont dérivés de plans d'exécution multi-clouds, produits par un optimiseur s'appuyant sur estimations sur les résultats intermédiaires des sous-requêtes. Deux stratégies de recherche ont été proposées. La première, exhaustive, permet de trouver de bons plans d'exécution pour des requêtes impliquant peu de fournisseurs. Cependant, sa complexité factorielle a conduit au développement d'une seconde stratégie, aléatoire et itérative. Celle-ci est conçue pour explorer plus rapidement une grande variété de plans d'exécution tout en ne produisant pas d'explosion combinatoire. Les estimations peuvent être erronées, diminuant ainsi la précision des devis et conduisant à l'exécution de plans sous-optimaux. Afin de protéger le middleware et ses utilisateurs des conséquences de ces erreurs, un modèle de coûts multi-clouds et une méthode d'optimisation dynamique ont été proposés. Le premier corrige les estimations fournies à l'optimiseur à l'aide de modèles d'apprentissage automatique en ligne. La seconde réoptimise les plans d'exécution multi-clouds à l'aune des valeurs constatées sur les résultats intermédiaires grâce à un système multi-agent. Le volet expérimental de cette thèse a montré que la sous-traitance des requêtes multi-clouds étaient financièrement pertinentes par rapport à un téléchargement des données qu'elles manipulent suivi d'une exécution chez un seul fournisseur cloud. Les apports de chacune des stratégies de recherche, du modèle de coûts multi-clouds et de la méthode d'optimisation dynamique, ont également été évalués.
Fichier principal
Vignette du fichier
2023TOU30043b.pdf (1.85 Mo) Télécharger le fichier
Origin Version validated by the jury (STAR)

Dates and versions

tel-04202698 , version 1 (11-09-2023)

Identifiers

  • HAL Id : tel-04202698 , version 1

Cite

Damien T Wojtowicz. Optimisation de requêtes en environnements multi-clouds. Sciences de l'information et de la communication. Université Paul Sabatier - Toulouse III, 2023. Français. ⟨NNT : 2023TOU30043⟩. ⟨tel-04202698⟩
311 View
169 Download

Share

More