MIT- Wissenschaftler bereiten Paradigmenwechsel in der Datenverarbeitung vor

22. August 2020 0 Von Horst Buchwald

MIT- Wissenschaftler bereiten Paradigmenwechsel in der Datenverarbeitung vor

New York, 22. 8. 2020

Bis 2025 werden sich alle Daten der Welt auf geschätzte 175 Billionen Gigabyte summieren. Diese Datenmenge auf DVDs gespeichert, ergibt einen Datenstapel der so hoch ist, dass man damit die Erde 222 Mal umrunden kann.

Die effiziente Speicherung und Verarbeitung dieser Daten ist eine der größten Herausforderungen. Ein Team des MIT-Labors für Informatik und künstliche Intelligenz (CSAIL) glaubt, dass dies nur mit so genannten „instanzoptimierten Systemen“ möglich sein wird.

https://www.csail.mit.edu/

Herkömmliche Speicher- und Datenbanksysteme sind für ein breites Spektrum von Anwendungen konzipiert. Sie zu erstellen, dauert Monate, oft sogar mehrere Jahre.

Im Gegensatz dazu besteht das Ziel instanzoptimierter Systeme darin, Systeme zu bauen, die sich selbst für die Daten, die sie speichern, und die Arbeitslast, die sie bedienen, optimieren und teilweise neu organisieren. „Es ist, als würde man ein Datenbanksystem für jede Anwendung von Grund auf neu aufbauen, was mit traditionellen Systementwürfen wirtschaftlich nicht machbar ist“, erklärt MIT-Professor Tim Kraska den Unterschied.

Als ersten Schritt auf dem Weg zu dieser Vision entwickelten Kraska und seine Kollegen Tsunami und Bao. Tsunami ( https://arxiv.org/pdf/2006.13282.pdf) nutzt das maschinelle Lernen, um das Speicherlayout eines Datensatzes auf der Grundlage der Arten von Abfragen, die seine Benutzer machen, automatisch neu zu organisieren. Tests zeigen, dass es Abfragen bis zu 10-mal schneller ausführen kann als hochmoderne Systeme. Darüber hinaus können seine Datensätze über eine Reihe von „gelernten Indizes“ organisiert werden, die bis zu 100 Mal kleiner sind als die in herkömmlichen Systemen verwendeten Indizes.

Kraska beschäftigt sich seit mehreren Jahren mit dem Thema „gelernte Indizes“. Darunter einige Jahre mit Kollegen bei Google. Für Harvard-Universitätsprofessor Stratos Idreos, der nicht am Tsunami-Projekt beteiligt war, sieht den einzigartigen Vorteil von gelernten Indizes in ihrer geringen Größe. Neben der Platzeinsparung ermöglichen sie auch erhebliche Leistungsverbesserungen.

„Ich denke, dass diese Art der Arbeit einen Paradigmenwechsel darstellt, der sich langfristig auf das Systemdesign auswirken wird“, sagt Idreos. „Ich gehe davon aus, dass auf Modellen basierende Ansätze eine der Kernkomponenten im Herzen einer neuen Welle adaptiver Systeme sein werden.

Bao ( https://arxiv.org/abs/2004.03814) konzentriert sich derweil darauf, die Effizienz der Abfrageoptimierung durch maschinelles Lernen zu verbessern. Ein Abfrageoptimierer schreibt eine deklarative Abfrage auf hoher Ebene in einen Abfrageplan um, der tatsächlich über die Daten ausgeführt werden kann, um das Ergebnis der Abfrage zu berechnen. Häufig gibt es jedoch mehr als einen Abfrageplan zur Beantwortung einer Abfrage. Wird ein falscher Abfrageplan ausgewählt, kann das dazu führen, dass die Berechnung der Antwort Tage statt Sekunden dauert.

Die herkömmlichen Abfrageoptimierer haben erhebliche Nachteile: sie benötigen Jahre zum Aufbau, sind sehr schwer zu warten und, was am wichtigsten ist, lernen nicht aus ihren Fehlern. Bao ist der erste lernbasierte Ansatz zur Abfrageoptimierung, der vollständig in das beliebte Datenbankmanagementsystem PostgreSQL integriert wurde. Hauptautor Ryan Marcus, ein Postdoc in Kraskas Gruppe, sagt, dass Bao Abfragepläne erstellt, die bis zu 50 Prozent schneller laufen als die vom PostgreSQL-Optimierer erstellten, was bedeutet, dass es dazu beitragen könnte, die Kosten von Cloud-Diensten, wie Redshift von Amazon, die auf PostgreSQL basieren, erheblich zu senken.

Durch die Verschmelzung der beiden Systeme hofft Kraska, das erste instanzoptimierte Datenbanksystem bauen zu können, das ohne manuelles Tuning die bestmögliche Leistung für jede einzelne Anwendung bieten kann. Das Ziel ist es, nicht nur die Entwickler von dem entmutigenden und mühsamen Prozess der Abstimmung von Datenbanksystemen zu entlasten, sondern auch Leistungs- und Kostenvorteile zu erzielen, die mit herkömmlichen Systemen nicht möglich sind.