2. Lerneinheit: Generative KI – was ist das?

Herkömmliche KI-Systeme sind darauf trainiert, gezielt Aufgaben zu lösen. Generative KI geht einen Schritt weiter. Lernen Sie, wie generative KI-Systeme eigenständig realistische, neue Inhalte erstellen können, basierend auf dem, was sie gelernt haben.

Grafik mit Kreisen, die mit Linien untereinander verbunden sind

Off

2.1 Was ist Künstliche Intelligenz und wie funktioniert sie?

Künstliche Intelligenz, maschinelles Lernen, neuronale Netze und Deep Learning – alles Begriffe, die irgendwie zusammengehören und doch nicht ganz eingängig sind. Zum Teil werden Begriffe wie Algorithmus, Maschinelles Lernen und Künstliche Intelligenz synonym verwendet. Sie sind nicht immer eindeutig abgrenzbar. Im Folgenden finden Sie einige Definitionen:

Algorithmus:
Hierbei handelt es sich um eine Art Schritt-für-Schritt-Anleitung für Computer, die von einem Entwickler (d.h. IT-Spezialist, der die jeweilige Anwendung programmiert hat) „vorausgedacht“ und programmiert wird. Das Computerprogramm setzt diese Schritt-für-Schritt-Anleitung dann zwar automatisch um, allerdings nach den vom Entwickler fest vorgegebenen Regeln der Programmierung. Ein Algorithmus sagt dem Computer, welche Schritte er in welcher Reihenfolge ausführen muss, um eine bestimmte Aufgabe zu erfüllen. Das heißt, die Maschine kann genau das, was der Mensch ihr beigebracht hat.

Vergleichen lässt sich der Algorithmus mit einem Kuchenrezept: Schritt für Schritt wird angegeben, welche Zutaten man braucht, wie der Teig verrührt wird und wie lange er backen muss. Für Außenstehende mag das auf den ersten Blick so aussehen, als ob die Maschine oder das Programm selbstständig und damit wie ein Mensch intelligent agiert. So wird es alltagssprachlich auch häufig erklärt. Aber im Hintergrund hat ein Mensch für diese ganz bestimmte Aufgabe oder ein ganz bestimmtes Problem genau festgelegt, was die Maschine oder das Computerprogramm tun soll. Dabei kann der Algorithmus mal mehr und mal weniger komplex sein. Viele Algorithmen sind einfacher als die meisten Menschen vermuten würden. Manchmal bestehen sie aus einer einzigen „Wenn-Dann-Anweisung”: Wenn diese Taste gedrückt wird, dann führe diese Aktion aus.

Ist die Aufgabe nicht bekannt, kann der Algorithmus kein Ergebnis produzieren und gibt daher eine Fehlermeldung. KI hingegen produziert auch bei einer Aufgabe, zu der ihr keine konkreten Informationen vorliegen, eine eigenständige Antwort. Diese Antwort muss allerdings nicht zwangsläufig korrekt sein.
Künstliche Intelligenz:
Künstliche Intelligenz (engl. artificial intelligence, kurz AI) bezeichnet die allgemeine Fähigkeit von Maschinen und Computerprogrammen, sich intelligent zu verhalten. Intelligenz bedeutet hierbei in erster Linie, dass die Computerprogramme in der Lage sind, Aufgaben automatisiert und eigenständig zu lösen oder auszuführen. Ziel hierbei ist, dass das Programm oder die Maschine etwas mindestens so gut kann, wie ein Mensch. Bei der KI-Technologie sind Computerprogramme, anders als bei einfachen Algorithmen, in der Lage, ohne konkrete Anleitung Aufgaben auszuführen. Die Künstliche Intelligenz versucht dabei, menschliches Verhalten und kognitive Fähigkeiten des Menschen (etwa das Lernen, die Wahrnehmung und die Kreativität) möglichst gut nachzuahmen. Dabei spielen auch bei der KI-Technologie Algorithmen eine wichtige Rolle. Diese weisen jedoch meist eine komplexere Struktur auf. KI-Modelle basieren allerdings nicht zwangsläufig auf Algorithmen, sondern können, je nach Komplexität, beispielsweise auch sog. Neuronale Netze verwenden, die komplexe Datenmuster (wie Texte, Bilder und Töne) und Beziehungen verstehen und erkennen, um genaue Erkenntnisse und Vorhersagen zu treffen (siehe auch Deep Learning). ChatGPT kann zum Beispiel deshalb Fragen so genau beantworten, weil das System – wie Menschen auch – gelernt hat, natürliche Sprache zu verstehen und selbst anzuwenden. Dafür wurde es mit Milliarden von Daten gefüttert, zum Beispiel mit Texten auf Internetseiten, Blogbeiträgen, Inhalten aus sozialen Netzwerken, Büchern und wissenschaftlichen Artikeln. Mithilfe dieser Texte hat die künstliche Intelligenz nicht nur die darin enthaltenen Informationen gelernt, sondern auch, wie man Sätze formuliert und welche Wörter und Formulierungen typisch für bestimmte Textarten sind, etwa für Wissenschaftstexte, Pressemitteilungen oder Lebensläufe.

Ziel der Künstlichen Intelligenz ist es also, dass Computerprogramme und Maschinen spezifische Aufgaben oder Anweisungen ohne menschliches Zutun mit einem hohen Grad an Autonomie eigenständig erfüllen bzw. ausführen und sich dabei verhalten, als verfügten sie über menschliche Intelligenz, etwa beim Verstehen und Anwenden von Sprache.
Maschinelles Lernen:
Maschinelles Lernen ist Teil einer Sammlung von Technologien, die unter dem Oberbegriff „Künstliche Intelligenz“ zusammengefasst sind. Genauer gesagt ist sie eine Möglichkeit, Künstliche Intelligenz umzusetzen. Beim Maschinellen Lernen geht es darum, dass Maschinen und Computerprogramme Schritt für Schritt lernen, wie Menschen selbstständig zu denken und zu handeln. Vorstellen kann man sich hier ein Kind. Ein Kind lernt auch aus Beispielen und vielen, sich teilweise wiederholenden Erfahrungen (in der Psychologie nennt man das „Lernen am Modell“). Es gibt unterschiedliche Möglichkeiten, wie Maschinen und Computerprogramme lernen können, wie Menschen zu denken. Eine Möglichkeit ist das Deep Learning.

Fiktives Beispiel:

Stellen Sie sich eine Vielzahl von Bildern vor, auf denen jeweils eine Katze zu sehen ist. Ein Mensch beschriftet alle Bilder mit dem Begriff „Katze“, d.h., in einer Datenbank wird eine Vielzahl an Bildern mit der Beschriftung bzw. mit dem Label „Katze“ gespeichert (so genannte Bild-Label-Paare). Das Computerprogramm wird daraufhin mit allen Bild-Label-Paaren gefüttert und trainiert. Nach dem Training kann das Programm auf einem fremden Bild mit hoher Wahrscheinlichkeit (aber nicht immer treffsicher) eine Katze erkennen und es entsprechend kategorisieren.

Deep Learning:
Einer der höchsten Formen maschinellen Lernens ist das Deep Learning. Deep Learning (engl. Tiefgehendes Lernen) ist somit ein Teilgebiet des Maschinellen Lernens bzw. eine Möglichkeit, maschinelles Lernen umzusetzen. In diesem Fall ahmt eine Form von Künstlicher Intelligenz menschliche kognitive Fähigkeiten nach, etwa das Lernen und Wahrnehmen. Die Künstliche Intelligenz wird mit einer großen Menge an Daten (Texte, Bilder, Videos) gefüttert und lernt dann auf Basis dieses Datenmaterials selbstständig, d.h. ohne menschlichen Einfluss, neues Wissen und Erkenntnisse aus Erfahrung zu generieren. Dabei werden die Daten und Informationen, mit denen KI-Modelle lernen, Trainingsdaten genannt. Lernen bedeutet hierbei, dass das System versucht, aus der großen Menge an Daten (Big Data) eigenständig Zusammenhänge, Muster und Strukturen zu erkennen und zu klassifizieren, um das Erlernte auf zukünftige Aufgaben anwenden zu können. So lernt beispielweise das KI-Modell mithilfe unzähliger Bilder, dass eine Banane eine bestimmte, gekrümmte Form hat und gelb ist. Mit jedem zusätzlichen Bild von einer Banane lernt das KI-Modell die unterschiedlichen möglichen Schattierungen einer Banane kennen und speichert dieses Wissen nach und nach ab. Damit lernt das System auch, dass die Krümmung einer Banane unterschiedlich aussehen kann und z.B. auch, dass eine unreife Banane eher grünlich als gelb ist. Und der Lernprozesse passiert – im Gegensatz zu anderen maschinellen Lernverfahren – zum Großteil selbstständig, ohne, dass ein Mensch eingreifen oder die Bilder beschriften muss. Es entsteht ein sog. Neuronales Netzwerk oder Neuronales Netz, ein Maschine Learning Programm, das mit großen Datenmengen gefüttert wird und darauf aufbauend Entscheidungen in der Art trifft oder eigene Schlüsse zieht, wie es ein menschliches Gehirn tut.. Die Logik entspricht dann in etwa Folgendem: Banane -> krumm, Banane -> reif -> gelb, Banane -> unreif -> grün. Mit diesem Wissen wäre ein KI-Bildgenerator dann beispielsweise in der Lage, mit dem entsprechenden Befehl (Prompt) ein Bild von einer Banane zu erstellen. Der Prompt lautet dann z.B. „Bild von einer reifen Banane“ und damit kann ein Bild von einer Banane generiert werden. Der Aufbau des Neuronalen Netzwerks bestimmt also, welche Antworten ein Programm mit generativer KI auf bestimmte Fragen gibt oder welches Ergebnis (Text, Zeichnung, Foto etc.) man erhält. Der Großteil des Neuronalen Netzwerks bleibt dabei im Verborgenen. Was dort passiert und weshalb beispielsweise ChatGPT eine bestimmte Antwort oder ein bestimmtes Ergebnis ausgibt, ist so komplex wie das menschliche Gehirn – und zum Großteil nicht nachvollziehbar.
Generative KI:
Generative KI ist eine Form der Künstlichen Intelligenz, die in der Lage ist, neue Inhalte wie Texte, Bilder oder Videos selbstständig zu erstellen. Dabei erstellt die generative KI die Ergebnisse nicht auf Basis von Fakten, sondern durch Berechnung von Wahrscheinlichkeiten. Ein KI-Textgenerator setzt beispielsweise auf Grundlage seiner Trainingsdaten Wörter entsprechend der Häufigkeit ihres Auftretens zusammen. Das bedeutet, dass ein von einer generativen KI erstelltes Ergebnis (z. B. Antwort, Text, Bild) durch statistische Häufigkeiten bestimmt wird, anstatt auf festem Wissen zu beruhen. Anschaulich wird das schon bei einer Smartphone-Tastatur: Tippen Sie auf einen Buchstaben, werden Ihnen ein paar Worte vorgeschlagen, die Sie zuvor häufig nach diesem getippten Buchstaben verwendet haben. Nach dem fertig getippten Wort wird ein weiteres Wort vorgeschlagen, das Sie häufig verwenden. Auf diese Weise nähert sich die generative KI schrittweise an die jeweilige Antwort oder das jeweilige Ergebnis heran.
Large Language Model (LLM):
Ein Large Language Model (deutsch Großes Sprachmodell) ist auch eine Art von Künstlicher Intelligenz, die dafür entwickelt wurde, natürliche Sprache zu verstehen und darauf zu reagieren. Diese Modelle werden mit riesigen Mengen an Texten trainiert und haben gelernt, Muster und Zusammenhänge in der Sprache zu erkennen. So können sie beispielsweise Texte schreiben, Fragen beantworten oder Übersetzungen anbieten. Kurz gesagt: ein LLM kann Worte und Sätze sinnvoll aneinanderreihen, um auf Fragen oder Aufgaben zu reagieren.

Modellhafte Darstellung mit den Texten "Ki verstehen - Modelle und Ansätze im Überblick" — *Grafik: Verbraucherzentrale NRW*

2.2 Welche generativen KI-Tools gibt es bereits und was können diese Tools?

Auch wenn die Zusammenhänge komplex und die Begrifflichkeiten nicht unmittelbar zu verstehen sind, so ist die Anwendung generativer KI-Systeme für jedermann einfach möglich und die Prinzipien leuchten recht schnell ein. Wir geben Ihnen nun einen Überblick, welche Inhalte Sie mit generativer KI bereits heute erstellen können und erklären dies anhand von Beispielen.

Textgenerierung und Text- bzw. Sprachübersetzung
Textgenerierende Systeme sind in der Lage, grammatikalisch und stilistisch gut klingende Texte in einer Form zu erzeugen, wie es auch entsprechend kompetente Menschen tun würden. Sie unterschieden sich kaum von solchen, die ein Mensch geschrieben hat. Beispiele:
- Fragen beantworten
- Konzepte erstellen (z.B. Konzept für eine Marketingkampagne)
- Texte (aber auch andere Inhalte wie Video- oder Audiodateien) zusammenfassen oder paraphrasieren
- Aufsätze schreiben
- Gedichte schreiben
- Programmcode erstellen
- Erstellen von PowerPoint-Präsentationen
Bildgenerierung
Bildgenerierende Systeme können innerhalb weniger Sekunden sowohl realistische Fotos als auch künstlerische und gemalte Bilder in jeglichen Formen und Farben erstellen (z.B. Personen, Natur, Gebäude, Denkmäler). Neben Bildern können entsprechende KI-Anwendungen auch realistische, hochwertige 3D-Modelle für Bereiche wie die Architektur generieren.
Damit ergibt sich ein breites Spektrum an Einsatzpotenzialen. So lassen sich beispielsweise eigene, kreative (Kunst-)Werke kreieren oder Bilder erstellen, die z. B. für die Bebilderung von Präsentationsfolien genutzt werden können. Der Fantasie sind hier keine Grenzen gesetzt.
Stimmgenerierung / Stimmimitation / Audiogenerierung
Stimmgenerierende Systeme können zum einen Text in realistisch klingende menschliche Stimmen umwandeln (engl. "Text-to-Speech") und zum anderen auch Stimmimitationen generieren, d.h. Stimmen von einzelnen Personen klonen. Dafür benötigt die KI lediglich eine gerade mal wenige Sekunden lange Stimmprobe derjenigen Person, deren Stimme imitiert werden soll.
Damit können der Stimmimitation auch Dinge „in den Mund gelegt werden“, die die imitierte Person nie selbst gesagt hat. Neben Stimmen können entsprechende KI-Systeme auch ganze Musikstücke in unterschiedlichsten Musikstilen (z. B. Klassik, Pop, Rock) samt Gesang sowie Soundeffekte generieren. Dabei kann der Text für den Gesang auch vorgegeben werden.
Videogenerierung
Videogenerierende Systeme sind in der Lage, nur durch Texteingaben entsprechend animierte Video-Sequenzen zu erstellen (engl. "Text-to-Video"). Manche Systeme sind auch in der Lage, vorhandene Videos zu verändern. Darüber hinaus können nicht nur neue Videos mithilfe von Texteingaben erstellt, sondern auch Fotos von Personen zum „Leben erweckt“ werden (engl. "Image-to-Video"). So können KI Systeme ein Foto derart verwandeln, das etwa die auf dem Foto abgebildete Person anfängt, einen Text in unterschiedlichen Sprachen zu sprechen und dabei nicht nur die Lippen sondern auch den Kopf bewegt. Der zu sprechende Text kann vorgegeben und durch Hochladen einer entsprechenden Audiodatei mit einer bestimmten oder sogar der eigenen Stimme belegt werden.

Die oben genannten Technologien werden nicht nur als eigenständige KI-Programme wie ChatGPT, Stable Diffusion (eine Anwendung für Bild- und Stimmgenerierung) oder RunwayML (eine Anwendung für Videogenerierung) auf den Markt gebracht. Sie werden auch zunehmend in bereits bestehende Programme und Angebote integriert (z. B. Copilot von Microsoft – ein digitaler KI-Assistent, der im Betriebssystem von Microsoft integriert ist und der Nutzer:innen bei diversen Aufgaben und Aktivitäten auf dem Laptop oder Smartphone unterstützen soll, etwa beim Aufrufen des E-Mail-Programms oder die Terminplanung per Sprachbefehl – oder der so genannte „Objektradierer“ in der Bildbearbeitung einiger Smartphones).

Erklärende Beispiele:

KI-gestützte Chatfunktion auf Online-Shopping-Plattform: Bei Problemen mit Ihrer Online-Bestellung kommunizieren Sie vielleicht statt mit einer Person vom Kundensupport mit einem leistungsfähigen KI-Chatbot. Dieser bearbeitet Ihre Fragen und ermöglicht eine Interaktion wie mit einem Menschen. KI-Chatbots sollen zukünftig immer besser werden. Das Ziel ist es, dass Sie irgendwann nicht einmal mehr merken, dass Sie nicht mit einem Menschen, sondern mit einem Computerprogramm sprechen oder chatten.
Einsatz von KI auf Buchungsplattformen für Ferienunterkünfte: Bei der Buchung von Ferienunterkünften hilft eine automatisierte Simultanübersetzung im Chatbereich, damit Kommunikation zwischen Vermieter und Mieter aus unterschiedlichen Ländern in der jeweils eigenen Muttersprache möglich ist.
KI-gestützte Bildbearbeitung in Bildbearbeitungsprogrammen: Bildbearbeitungsprogramme können nicht mehr nur wie bisher kleine Hautunebenheiten korrigieren, sondern mit KI auch ungewünschte Objekte auf Bildern verschwinden lassen (z. B. eine unschöne Baustelle vor dem Brandenburger Tor) oder sogar Objekte im Nachhinein in Bilder einfügen, wie beispielsweise Palmen in einem Strandfoto an der Ostsee.
Videobearbeitungsprogramme: Diese Programme können Videos nicht mehr nur kürzen sondern mithilfe der KI auch in Videos automatisch Untertiteln erstellen.

Zukünftig werden immer mehr KI-Komponenten in Anwendungen integriert sein. Darüber hinaus erwarten Expert:innen, dass generative KI-Anwendungen aufgrund besserer Technik und zunehmender Rechenleistung in Zukunft die Welt immer besser verstehen und qualitativ hochwertigere Ergebnisse erstellen werden (z. B. immer realistischere Fotos und Videos sowie Stimmen, die sich von einer echten Menschenstimme kaum noch unterscheiden werden). Die Anwendungen werden die Ergebnisse auch zunehmend schneller erstellen können. Während beispielsweise heute noch mehrere Minuten bis Stunden benötigt werden, um ein Video mit wenigen Sekunden Laufzeit herzustellen, werden KI-Anwendungen dafür in Zukunft viel weniger Zeit benötigen.

2.3 Woher kommen die Daten, mit denen generative KI-Modelle trainiert werden?

Generative KI-Modelle müssen mit vielen Daten trainiert werden, bevor sie selbstständig Fragen beantworten, Texte schreiben oder Bilder und Videos generieren können. Die Daten, mit denen KI-Modelle gefüttert und trainiert werden, nennt man Trainingsdaten. Aber woher nehmen Unternehmen die Daten, mit denen sie ihre KI-Modelle trainieren? Grundsätzlich können Trainingsdaten aus vielfältigen Quellen stammen: Internet, Sensoren (z. B. in vernetzten Autos), Unternehmensdatenbanken, öffentliche Datensätze, lizenzierte Datenbanken. Bei bildergenerierenden KI-Modellen bilden zum Beispiel Milliarden bereits vorhandener, öffentlich und im Internet frei zugänglicher oder lizenzierter Bilder die Grundlage für die Erstellung der KI-generierten Bilder. Solche Trainingsdaten-Bilder sind u. a. in Datenarchiven gespeichert. Darunter können auch Online-Plattformen fallen, auf denen Bilder sowie kurze Videos zur Verfügung gestellt werden, wie beispielsweise Flickr oder pixabay. Datensätze, die für bildergenerierende KI-Modelle benötigt werden, sind eine große Sammlung vieler Paare von Bildern und den dazugehörigen Texten, die beschreiben, was auf den jeweiligen Bildern zu sehen ist.

Reales Beispiel:

Damit Sie eine Vorstellung davon haben, mit wie vielen Datensätzen KI-Modelle im Durchschnitt trainiert werden: Bei Stable Diffusion, einem Text-zu-Bild-Generator, der frei verfügbar ist (Open Source), basiert das dahinterliegende KI-Modell z. B. auf dem Training von ca. 6 Milliarden Bild-Text-Paaren.

Textgenerierende KI-Modelle werden in den meisten Fällen mit im Internet frei zugänglichen oder lizenzierten Wissensdatenbanken oder Texten wie etwa Wikipedia, digitalisierten Büchern, Online-Nachrichtenartikeln, wissenschaftlichen Zeitschriften oder Beiträgen in Online-Foren trainiert. Trainiert bedeutet, dass die Anwendung lernt, Wörter in eine möglichst sinnvolle Reihenfolge zu bringen. Auf Aufträge zu reagieren, lernt sie auch anhand von beispielhaften Aufgaben und Lösungen. Häufig ist das Training von KI-Modellen kein abgeschlossener Prozess. Die Anwendung wird bei jeder Nutzung kontinuierlich mit weiteren Daten gefüttert und kann ihre Ergebnisse verfeinern. Das geschieht unter anderem durch die Informationen, die Sie der KI durch Ihre Eingaben (Prompts) zur Verfügung stellen. Manche Anbieter planen, für das Training ihrer KI-Modelle die Daten ihrer eigenen Nutzer:innen zu verwenden. Ein prominentes Beispiel ist Meta.

Reales Beispiel:

Die Meta Platforms, Inc. ist ein US-amerikanischer Internetkonzern, dem u.a. die sozialen Netzwerke Facebook und Instagram sowie die Instant-Messaging-Apps WhatsApp und Messenger gehören. Die für die EU zuständige Tochtergesellschaft Meta Platforms Ireland Limited hatte im Mai 2024 angekündigt, "KI bei Meta" zu entwickeln und im Zuge dessen seine eigenen KI-Anwendungen auf den Markt zu bringen. Als Trainingsmaterial für das dahinterstehende KI-Modell sollen auch Nutzerinhalte dienen, also das, was auf den Plattformen wie Facebook oder Instagram über Jahre hinweg an Textbeiträgen, Bildern und Videos öffentlich gepostet wurde. Wer das nicht möchte, könne entsprechend widersprechen. Die Verbraucherzentrale NRW hat Meta deshalb abgemahnt. Zahlreiche weitere Daten- und Verbraucherschützer:innen innerhalb der EU haben ebenfalls Beschwerde eingelegt. Meta hat daraufhin öffentlich verkündet, seine KI-Pläne in der EU vorerst zu stoppen.

Mit welchen Daten konkrete KI-Modelle bestimmter Anbieter trainiert wurden bzw. werden, ist in vielen Fällen nicht eindeutig bekannt und wird von den Anbietern häufig nicht transparent gemacht. Dabei ist das aus unserer Sicht ein wichtiger Aspekt für Vertrauen. Nutzer:innen sollten erfahren, welche Daten beim Training der KI verwendet werden und frei wählen können, ob ihre personenbezogenen Daten für Trainingszwecke genutzt werden.

Die Grafik visualisiert einen Trichterdiagramm dass die Methodik zum training von Künstlicher Intelligenz darstellt, es werden die Schritte von Datenintegration bis zur Anwendung gezeigt.

Grafik: Verbraucherzentrale NRW

Übungen zur 2. Lerneinheit

Lerneinheit laden: Erst wenn Sie auf "Inhalt anzeigen" klicken, wird eine Verbindung zu H5P hergestellt und Daten werden dorthin übermittelt. Hier finden Sie dessen Hinweise zur Datenverarbeitung.

Übungen zur 2. Lerneinheit

Aktuelle Meldungen

Ebay: Persönliche Daten für KI-Training ab 21. April

Diesel-Urteil: Musterklage gegen Mercedes erfolgreich

Marktcheck zeigt: Preisvergleich ist auch bei reduzierter Ware sinnvoll