16 Jahre Amazon Simple Storage Service bei AWS „Hochverfügbarkeit von nahezu 100 Prozent“

Von Michael Matzer

Anbieter zum Thema

Am 14. März 2022, dem „Pi Day“, wurde Amazon Simple Storage Service (Amazon S3) 16 Jahre alt. Wir hatten die Gelegenheit, auf dem AWS Summit Berlin 2022 mit Kevin Miller, Vice President für Amazon S3, über die Ursprünge und Vorteile des Cloud-Speicherdienstes sowie über die Herausforderungen zu sprechen, die sich Amazon S3 heute stellen.

Standortbestimmung: Auf dem AWS Summit Berlin 2022 erläuterte uns Kevin Miller den Werdegang und die aktuellen Entwicklungen des Cloud-Storage-Riesen.
Standortbestimmung: Auf dem AWS Summit Berlin 2022 erläuterte uns Kevin Miller den Werdegang und die aktuellen Entwicklungen des Cloud-Storage-Riesen.
(Bild: ALEX TREADWAY)

Am 14. März war es wieder einmal so weit: Einer der am häufigsten genutzten Cloud-Services hatte Geburtstag – am „Pi Day“, so benannt nach der Kreiszahl 3,14. Denn in den USA wird der 14. März nicht „13. 4.“ geschrieben, sondern wie die Kreiszahl: „3/14“. Doch wie kam AWS überhaupt auf die Idee, Amazon S3 zu erfinden? Kevin Miller, bei AWS als Vice President zuständig für den Cloud-Speicherdienst, gab bereitwillig Auskunft.

Bildergalerie

Object Storage

„Das Konzept beruhte auf der Nachfrage der Amazon.com-Entwickler nach einer Methode, Daten in der Infrastruktur auf einfache Weise speichern zu können, ohne sich um Bereitstellung, Speicherkapazität und Zugriffskapazität kümmern zu müssen“, fasst Miller zusammen. „Die Entwickler wollten nicht die Komplexität eines Filesystems, sondern eine Object-Storage-API.“ In den frühen Tagen des Retail-Geschäfts von Amazon.com wollten die Entwickler nur die Möglichkeit haben, viele Objekte ablegen und wieder abrufen zu können.

„Aber schon beim Launch hatten wir viele externe Kunden, die große Webseiten und Foto-Sharing-Sites betrieben, also große Datenmengen vorzuhalten hatten. Von da an wuchs Amazon S3. Heute sehen wir weiterhin eine konstante Zunahme an Medien, die Menschen in aller Welt ständig erzeugen und speichern wollen.“ Besonders auf der Datenbankseite sei in den vergangenen Jahren sehr viel geschehen. „Kunden nutzen diese Möglichkeiten und Services, um ihr Geschäft auf vielfältige und interessante Weise zu verbessern.“

Buckets

Dann war da noch die Sache mit den Eimern: buckets. Miller erläutert: „Bei Amazon gibt es die ‚Two-Pizza-Team-Regel‘. In einem solchen Team sind idealerweise höchstens zehn bis zwölf Teilnehmer. Sie können schnell agieren und Probleme lösen. Jedes Team ist verantwortlich für einen Service und verfügt über eine eigene Infrastruktur, wie etwa einen eigenen Bucket zur Datenspeicherung. Buckets sind also ein Weg, Daten zwischen Einheiten wie Teams abzugrenzen.“

Jeder Speicher-Bucket braucht einen Zugriffspunkt: den Access-Point. Das ist in Amazon S3 mittlerweile ein ausgefeiltes Leistungsmerkmal. „Das ist ein recht junges Feature“, erzählt Miller. „S3-Daten sind ja standardmäßig sicher, und die Kunden bestimmen über den Zugriff, aber es gibt Anwendungen, für die der Zugriff verschiedene Abteilungen überspannt und mehrere Personen Zugriff benötigen. Ein Bucket-Besitzer kann inzwischen mit Access-Points seine Zugriffsrichtlinie A mit Team A teilen, mit Team B aber eine ganz andere Zugriffsrichtlinie umsetzen.“ Jedes Team verfüge über einen bestimmten Zugriffspunkt, den es nutzen könne. Die Zugriffspunkte würden also getrennt gehalten.

Ransomware-Schutz

Kann es unantastbare Daten geben? Nicht immer, aber immer öfter, wie Miller berichtet. „Wir haben den Kunden von Anfang an Security-Kontrolle an die Hand gegeben, und wir weiten diese Kontrollmöglichkeiten ständig aus. Daher bieten wir unter anderem Amazon S3 Object Lock an, um unveränderliche Dateien zu ermöglichen. Ich ermutige die Kunden, diese Funktion zu nutzen.“ Denn dies ist der optimale Schutz gegen Ransomware-Angriffe.

Bei Amazon S3 Object Lock gibt es den Compliance- und den Governance-Modus. „Im Compliance-Modus lassen sich Daten nicht bis zu einem bestimmten Datum löschen, im Governance-Modus kann eine befugte Person mit größeren Rechten die Unveränderlichkeit entfernen, üblicherweise ein Administrator.“

Kevin Miller, Vice President für Amazon S3 bei AWS.
Kevin Miller, Vice President für Amazon S3 bei AWS.
(Bild: AWS)

IAM statt ACLs

„Wir haben solche Sicherheitsmerkmale in Amazon S3 stets weiterentwickelt. Ab 2006 führten wir Access Control Lists [ACLs] ein, aber nur für Amazon S3. Doch unsere Kunden wollten mit AWS Identity and Access Management [IAM] eine einfache und sicherere Handhabung der Zugriffssicherheit, die alle Services absichert. Inzwischen haben wir mit AWS IAM die alten ACLs für Amazon S3 ersetzt. IAM wurde sehr gut aufgenommen.“

Intelligent-Tiering

Amazon S3 hat sich kontinuierlich weiterentwickelt, doch laut Miller ist S3 Intelligent-Tiering eines der wichtigsten Leistungsmerkmale. „Dieses Feature wird wirklich sehr gut von unseren Kunden angenommen. Der Grund ist einfach: Kunden erstellen Data Lakes und sehen, dass ihre Daten schnell ‚veralten‘, weil die Zugriffe schnell nachlassen. Manche Kunden haben festgestellt, dass sie Mühe haben, die Daten ohne Aufwand in ‚niedrigere‘ Speicherklassen zu verschieben. Wir haben gesagt: ‚Wir erledigen die Überwachung der Objektzugriffe für Sie und verschieben beispielsweise Objekte, auf die länger als 30 Tage nicht zugegriffen wird, in eine niedrigere Speicherklasse.‘ Diese Speicherklasse kostet weniger. Seit Dezember 2019 hat das Feature unseren Kunden über 250 Millionen Dollar Kosten gespart. Kein Wunder also, wenn die Kunden die Funktion sehr mögen. Sie sagen, sie sei ein game changer.“

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Cloud Computing

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

In Berlin wird eigens ein Team für die Weiterentwicklung dieses KI-gestützten Features aufgebaut. 2019 erstmals vorgestellt, wurde es im Dezember 2021 überarbeitet. Auf der re:Invent 2021 lancierte AWS die „Amazon S3 Glacier Instant Retrieval“ und „S3 Intelligent-Tiering Archive Instant Access“ Tiers, zwei neue Speicherklassen.

Nachhaltigkeit

Neben den genannten Kosten von 250 Millionen US-Dollar habe Intelligent-Tiering geholfen, viele Kilowattstunden und erheblichen CO2-Ausstoß zu sparen. „Die Kunden bitten uns um tieferen Einblick in die Auswirkungen ihrer Entscheidungen auf den CO2-Ausstoß in ihren Unternehmenseinheiten“, berichtet Miller. „Diese Fähigkeit könnte bald eine Verpflichtung sein, nicht nur in Europa, sondern auch in den USA. Wir haben für Analyse und Reporting das ,Customer Carbon Footprint Tool‘ bereitgestellt. Wir sehen, dass das Thema Nachhaltigkeit mittlerweile häufig auf der Vorstandsebene auftaucht.“ Die Transparenz im Bereich Nachhaltigkeit sei auch ein obligatorisches Kriterium in Ausschreibungen, um einen Auftrag der Öffentlichen Hand zu gewinnen.

Performance durch Scale-Out

„Amazon S3 ist heute weltweit performant, sowohl was den Datendurchsatz als auch die Latenz für alle Anfragen betrifft“, sagt Miller. „Früher gab es mehr Variabilität, heute deutlich mehr Einheitlichkeit [Konsistenz] hinsichtlich der Latenzzeiten.“ Die Antwortzeiten seien heute vorhersagbar, denn das ist eine Bedingung für belastbare und akzeptierte Anwendungen. „Manche Kunden handhaben sehr große Datenvolumina“, weiß Miller. „Mitunter sprechen wir zudem von Hunderttausenden oder Millionen von Anfragen in kürzester Zeit. AWS ist entsprechend belastbar: Die Hochverfügbarkeit liegt inzwischen bei nahezu 100 Prozent.“ Sie werde automatisch von AWS gewährleistet.

Es gibt ein Software-Development-Kit [SDK] für alle AWS-Services: Die Kunden können diese Bibliotheken in sehr vielen Programmiersprachen und in den gewünschten Anwendungen verwenden. „Wir haben im SDK ein paar Verbesserungen für Kunden vorgenommen, die große Datenmengen abfragen wollen“, erläutert Miller. „Darin ermöglichen wir die Parallelisierung der Abfragen. Amazon S3 hat damit auch die Kapazität für die massive horizontale Skalierung [Scale-Out]. So lassen sich Übertragungsraten bis zu 100 Gigabyte pro Sekunde erzielen, etwa bei manchen EC2-Instanzen.“ Bei manchen Kunden bilde das Netzwerk den Flaschenhals. Wenn aber ein Kunde einen schnelleren Bucket-Zugriff haben wolle, dann sorge das System automatisch hinter den Kulissen für diese Kapazität.

Parameter wie parallelisierte I/O, Zugriffsfrequenz und Kapazität bestimmen das performante Tiering: Hot Data wie in der „S3 Standard“-Speicherklasse werden in entsprechend ausgelegter Hardware (Chips, Speichersysteme und so weiter) und Software abgelegt. „Deren Code ist geheim“, deutet Miller an, „aber massive horizontale Skalierung gehört dazu.“ Die interne Kernfunktionalität um GET-PUT-Dienste skaliere entsprechend hoch, und zwar auf zwei Stufen. „Wir nutzen einen Mix an Technologien aus verschiedenen Hardware- und Software-Komponenten oder Protokollen, aber stets müssen Kosteneffizienz und Belastbarkeit gewährleistet sein.“

Um diese Eckdaten zu erreichen, kauft AWS zwar auch „off the shelf“ in kostengünstigen Mengen, „und wenn das nicht geht, bauen wir die Hardware und Software selbst. Ein Beispiel dafür wäre Graviton3.“ Eines ist klar: „Wir müssen die vollständige Lieferkette für unsere Hardware kennen.“

Auf die Größe kommt es an

„Die Angabe, dass die maximale Dateigröße in Amazon S3 fünf Terabyte beträgt, stimmt“, bestätigt Miller. „Diese Dateigröße reicht für die meisten Zwecke aus, und wir sehen meistens nur Megabyte oder Gigabyte.“ Aber 8K-Video mit hoher Bitrate komme schon in die Nähe dieser Marke. „Manche Kunden erwarten, dass sie diese Marke überschreiten werden. Der Grund, warum wir diese Marke nicht überschreiten, liegt in unserer Zusage für die Beständigkeit [durability] einer Datei [mit elf Neunen hinterm Komma].“

Solche großen Dateien würden in Amazon S3 in viele kleine Bruchstücke zerlegt und mithilfe von ECC und ähnlich wie in einem RAID-System wieder zusammengesetzt. „Wir schauen uns das an, denn die Weiterentwicklung erfordert Software-Innovationen, die über ECC und RAID hinausgehen. Aber die Beständigkeit der Dateien ist gesichert.“

Kostenoptimierung

Intelligent Tiering hilft Kosten und Aufwand zu sparen, aber AWS stellt den Kunden außerdem das Tool „Amazon S3 Storage Lens“ bereit. „Die Kunden können damit ihre Speichernutzung vollständig analysieren und damit sofortige Verschiebungen von Workloads in andere Speicherklassen und damit in manchen Fällen sogar schneller als mit ,Intelligent Tiering‘ veranlassen“, berichtet Miller. „Sie können Duplikate und anderen unerwünschten ‚Ballast‘ finden. Das Tool ist in der AWS Management Konsole zu finden und produziert einen täglichen Bericht.“

Auch der kostenpflichtige Abruf [Retrieval] von Daten aus „S3 Standard-IA“ lässt sich laut Miller hinsichtlich der Kosten optimieren, aber der Kostenanteil sei minimal. So können Nutzer beispielsweise auch die Vorgaben der GDPR hinsichtlich des Löschens von Kundendaten mithilfe von Richtlinien ebenso realisieren wie etwa Governance-Richtlinien mithilfe von „Tags“ einrichten.

Amazon S3, Backup und DR

Wie schon Ransomware-Schutz und IAM dienen auch Datensicherung und -wiederherstellung dem Schutz von Speicherinhalten. „Auf der AWS re:Invent 2021 haben wir AWS Backup für Amazon S3 vorgestellt. Kunden, die nach einem einheitlichen Backup-Verfahren für alle ihre AWS-Ressourcen suchen, können diesen Service verwenden.“ In dieser Lösung befinde sich ein Tool für Replikation. „Replikation ist wohl die verbreitetste Methode, um Daten zu schützen“, weiß Miller. „Das Backup besteht dann in der automatischen asynchronen Replikation, entweder in einen Bucket der gleichen Region oder in einer anderen der 26 AWS-Regionen.“ Es gebe einige Möglichkeiten, diese Replikation zu konfigurieren.

Datenwiederherstellung ist diffiziler. „Die Disaster Recovery [DR] ist bei jedem Kunden anders“, weist Miller hin. Die Kunden müssen herausfinden, wie ihr DR-Plan genau aussieht, und diesen Plan testen. „Aber die Schwierigkeit beruht wohl eher auf den Anwendungen und der Interdependenz zwischen den Komponenten dieser Anwendungen. Kunden verwenden die meiste Zeit darauf, einen DR-Plan zu erstellen.“ Kunden können Werte für Recovery Time Objective und Recovery Point Objective planen und testen, und auch die AWS-Partner hülfen den Kunden dabei. „Es gibt Kunden, die sich absolut keinen Datenverlust leisten können“ – etwa Scalable Capital –, „aber das lässt sich erzielen. Solche Kunden leiten ihre Daten per Replikation an verschiedene Standorte weiter.“

Bildergalerie

Amazon S3-Nutzung in Deutschland

„Einer unserer Kunden in Deutschland ist die Deutsche Fußball Liga [DFL] mit den Bundesliga-Match-Facts. Die Evolution im Sport ist faszinierend, und für die Match-Facts sind die Fans sehr dankbar. Hier wird Machine Learning genutzt. Außerdem sind Zalando und Joyn, ProSiebens Medienarchiv, unsere Kunden. Joyn erzielte die dreifache Kapazität bei gleichem TCO sowie den Wechsel von asynchronem zu synchronem Zugriff, also eine massive Leistungssteigerung.“

(ID:48461523)