OpenAI: Die künstliche Intelligenz macht den nächsten Sprung

OpenAI - die künstliche Intelligenz macht den nächsten Sprung Teil 1

„OpenAI“ – dieses Kürzel kennen inzwischen mehr Menschen, aber was bedeutet „Open Artificial Intelligence“ eigentlich?

Was ist OpenAI?

OpenAI ist aus Angst entstanden, verkürzt ausgedrückt. OpenAI ist eine gemeinnützige Forschungsorganisation, die 2015 ins Leben gerufen wurde, weil die großen Macher im Sillicon Valley Angst davor bekamen, dass sie einen Geist aus der Flasche holen, den niemand mehr bändigen kann. Die Initiatoren sind auch außerhalb der -Welt gut bekannt:  Sam Altman (Y Combinator, ein Gründungszentrum das bislang 3,000 hervorbrachte), Greg Brockman (mit Gründer von Stripe), Reid Hoffman (LinkedIn), Elon (Tesla) und der Peter Thiel (Palantir). Dieses Team packte zunächst eine Milliarde Dollar in die von OpenAI: Ihr Ziel ist es eine „künstliche allgemeine Intelligenz“ (AGI) zu entwickeln, die der gesamten Menschheit zu Gute kommt. In den ersten Jahren veröffentlichte diese illustre Gesellschaft zwar spannende Beschreibungen von -Ansätzen, aber nichts, was außerhalb der weltweiten Tech-Szene für Schlagzeilen gesorgt hätte.

Was kann OpenAI? Was ist GPT-2?

Es dauerte vier Jahre, bis die Welt außerhalb der Programmierer, Forscher und KI-Enthusiasten zum ersten Mal von einem richtig großen Projekt hörten, dass den Weg in die ganz normale Presse und in die News-Portale fand. Im Februar 2019 stellte OpenAI ein historisches Werkzeug vor: GPT-2 („Generative Pre-trained Transformer 2“), ein Transformer-Sprachmodell mit 1,5 Milliarden Parametern, das mit 40 GB Text oder etwa 10 Milliarden Token trainiert wurde und ohne menschliche Überwachung auskommt. Was heißt das bitte?

Eine Faustregel besagt, dass ein Token im Allgemeinen etwa 4 Zeichen Text für einen gewöhnlichen englischen Text entspricht. Dies entspricht etwa ¾ eines Wortes (also 100 Token ~= 75 Wörter).

40 Gigabyte Trainingstexte sind ehrlich gesagt nicht sonderlich viele Daten und es ist extrem bemerkenswert, dass dieses Textmenge schon reichte, um erste gut lesbare Texte zu generieren. 200 Bibeln zum Beispiel brauchen 1 GB Speicherplatz. Ein simples Beispiel, was das aus dieser Datenmenge lernen konnte: Wenn die Aufgabe an ein GPT2-Tool lautet, einen Brief an Katrin zu schreiben, dann weiß die Software, dass sie mit „Hallo Katrin“ anfangen sollte – dieses „Hallo“ kennt sie aus unzähligen Briefen, die in den 40 Gigabyte Daten enthalten waren. Und „wie geht’s Dir“ ist auch nicht so schwer für jemanden, der zuvor 100 oder 200 Briefe gelesen hat.

Allerdings kamen bei etwa 10 Prozent der Beispiele nicht zu gebrauchende Aussagen heraus. Diese technischen Hürden schienen überwindbar, es gab aber eine größere Sorge der OpenAI-Community:

„Aufgrund unserer Bedenken hinsichtlich bösartiger Anwendungen der Technologie geben wir das trainierte Modell nicht frei“.

Tatsächlich war GPT2 kaum für interessierte Laien oder normale Unternehmen zu bekommen: Wer eine Schnittstelle bekommen wollte, wurde sorgfältig geprüft. Fakenews-Fabriken sollten keinen Zugriff auf die Textproduktions-Verfahren bekommen. Dies rief sofort Kritik hervor: die Befürchtung, die Technologie sei so gefährlich, dass sie unter Verschluss gehalten werden müsse, sei lediglich ein Mittel zur Erzeugung von Hype und Medieninteresse. Trotz der tatsächlichen oder vorgeschobenen Bedenken wurde das vollständige Modell mit 1,5 Mrd. Parametern schließlich im November 2019 doch veröffentlicht, nach Zwischenveröffentlichungen mit immer größer werdenden Sprachmodellen: ein „kleines“ Modell mit 124 Mio. Parametern im Februar, ein mittleres Modell mit 355 Mio. Parametern im Mai und ein Modell mit 774 Mio. Parametern im August.

Während die unterschiedlichen Entwicklungsstufen von GPT2 nacheinander vorgestellt wurden entwickelte sich bereits eine Vorahnung, was der Nachfolger GPT3 vermutlich alles können wird.

GPT-3: Die Computertexte werden immer menschlicher

Im Juni 2020 kündigte OpenAI GPT-3 an, ein neues Sprachmodell, das mehr als 100-mal größer ist als GPT-2, mit 175B Parametern und 96 Schichten, die auf einem Korpus von 499 Milliarden Token von Webinhalten trainiert wurden, was es zum bei weitem größten bisher konstruierten Sprachmodell macht. Zur Erinnerung: GPT-2 musste sich mit 10 Milliarden Token zum Lernen begnügen.

Wie sich herausstellte, klangen die mit dem GPT-3 erstellten Texte viel eher kohärent als die seines Vorgängers. Das Wort „kohärent“ ist hier wichtig, denn ein „kohärenter“ Text ist ein Text, der auch über viele hundert Wörter einen durchgehenden roten Faden hat. Frühere Software hat einzelnen Sätze generiert, bei denen der nachfolgende Satz auf einer eigens codierten weiteren Regel beruhte. Um damit eine Zusammenfassung des Börsentages zu generieren waren Dutzende von Regeln erforderlich, um einen durchgehenden logischen Artikel zu schaffen. Inzwischen hat die Textgenerierung auch das stark deskriptive verlassen, sogar Lyrik und Prosa funktioniert immer besser:

„Es ist eine merkwürdige Tatsache, dass die letzte verbliebene Form des gesellschaftlichen Lebens, an dem die Briten noch interessiert sind, ist. Diese merkwürdige Tatsache fiel mir auf, als ich in einem meiner regelmäßigen Urlaube ans Meer fuhr und feststellte, dass der ganze Ort zwitscherte wie ein Starenkäfig. Ich nannte es eine Anomalie und das ist es auch.“

Hätten Sie sofort gewusst, dass diese ironische Beschreibung von einem geschrieben worden ist, ohne menschliche Vorgabe außer dem gewünschten Schreibstil?

In einer Woche geht es hier weiter mit Teil 2!

Bild: @ depositphotos.com / phonlamai

Wolfgang Zehrt