Natural Language Processing? Übersetzungen, künstliche Intelligenz und die Frage der Identität

Wer eignet sich als Übersetzerin des Gedichts einer jungen Afroamerikanerin? Wie wichtig ist ein gemeinsamer Erfahrungshorizont, um wirklich zu verstehen, was gemeint ist? Während in den letzten Monaten eine Debatte um genau diese Fragen Twitteruser*innen um den Schlaf brachte, ist ein anderes Übersetzungsproblem fast in Vergessenheit geraten: GoogleTranslate, DeepL und andere Übersetzungsmaschinen haben ein Diskriminierungsproblem. Berliner Gazette-Autor und Technikforscher Christian Heck bringt beide Debatten zusammen.

*

Amanda Gorman trug kurz vor Bidens Amtseinführung Ende Januar ihr Gedicht mit dem Titel „The hill we climb“ vor. Am Dienstag, den 30. März 2021 erschien die deutsche Übersetzung. Dieser vorangehend wurde eine lautstarke Debatte über mögliche Übersetzungen des Gedichts in den internationalen Medien geführt, nachdem die für die niederländische Übersetzung zunächst vorgesehene Schriftstellerin Marieke Lucas Rijneveld von dem Übersetzungsauftrag zurückgetreten ist.

Die darauffolgenden Diskussionen, die durch einen Artikel der niederländischen Autorin Janice Deul in der Volkskrant quasi getriggert wurden, kann man kurz mit dem Titel überschreiben: „Dürfen Weiße Schwarze übersetzen?“. Auch wenn darin nicht wirklich die Rede davon war, dass nur Schwarze Schwarze übersetzen sollen dürfen, es ging ihr in erster Linie um dieses eine spezifische Gedicht von Amanda Gorman im Zusammenhang mit Black Lives Matter.

Es ist sehr interessant, sich den zahlreichen Fragen, die in dieser Debatte in Erscheinung traten zu widmen, bevor wir diese in den Kontext der Causa Timnit Gebru setzen, der ehemaligen Leiterin des Google Ethical AI Intelligence Team.

Die Autorin Saba-Nur Cheema fasste die Fragen in ihrem kürzlich in der Taz erschienen Essay wie folgt zusammen: „Müssen Übersetzer:innen immer aus der Gruppe der Originalverfasser:innen sein? Und wenn ja, welche Kategorien sind relevant? Können nur Schwarze die Texte von Schwarzen übersetzen? Nur Frauen die Texte von Frauen? Und wie ist es mit einem Text von einer Schwarzen Frau: ist ein Schwarzer Mann oder eine weiße Frau besser geeignet? Und vor allem: Wer entscheidet das?“. Es wurden Fragen nach der kulturellen Identität neben breitgefächerte Diskussionen über die literarische, bzw. die künstlerische Aneignung gestellt.

Schicksalsgemeinschaften

Inwiefern “profitieren” Künstlerinnen und Künstler von den Erfahrungen marginalisierter Gruppen, wenn sich deren künstlerische Arbeit mit ihnen auseinandersetzt, sie selbst jedoch nicht den Erfahrungskreis und die jeweilige Community teilen? Wichtige Fragen, die allesamt nicht vereinfacht noch leichtfertig beantwortet werden dürfen. Die Autorin Saba-Nur Cheema verwies auf den britischen Soziologen Stuart Hall. Dieser warnte vor einem essentialistischen Verständnis von Identität.

In seiner Theorie ist kulturelle Identität nicht statisch, gegeben oder absolut, sondern ein ständiger und immer unabgeschlossener Prozess. Die gemeinsame Vergangenheit schafft einen imaginären Zusammenhalt, quasi eine Schicksalsgemeinschaft, die jedoch nicht bedeutet, dass die unterschiedlichen Lebensrealitäten und Interessen in der Gegenwart keine Rolle mehr spielen.

Und rein fachlich? Was ist mit Fragen nach den fachlichen Kompetenzen jeweiliger eher schlecht als recht bezahlten Übersetzer*innen? Diese sind „im jeweiligen Einzelfall zu klären“, und zwar „welche ÜbersetzerInnen für den jeweiligen Text am besten geeignet sind“ so der Übersetzer Frank Heibert, der im Onlinefeuilleton von Tell-Review eine eingehende Auseinandersetzung hierzu veröffentlicht hat. Er telefonierte vor einigen Wochen mit Dirk Knipphals von der Taz. Knipphals transkribierte Heiberts Aufzählung in einem Taz-Artikel: „Expertise im jeweiligen Genre ist wichtig. Die Neugier auf den gedanklichen Hintergrund des Textes ebenso. Biografische Hintergründe, die Frage des Geschlechts, das alles kann hineinspielen, und geteilte Erfahrungshintergründe können es eben auch. (…) Die sprachlichen und stilistischen Fertigkeiten“.

Warum so kompliziert?

Das alles wo es doch so einfach wäre! Ein Klick auf Google Translate reicht aus! Und aus Amanda Gormans „The Hill We Climb“ würde „Der Hügel, den wir erklimmen“.

Das sind die ersten Zeilen des Gedichts:

„When day comes, we ask ourselves, \ where can we find light in this never-ending shade? \ The loss we carry, \ a sea we must wade. \ We’ve braved the belly of the beast. \ We’ve learned that quiet isn’t always peace. \ And the norms and notions \ of what just is, isn’t always just-ice.“

Zaubert uns die Übersetzungsmaschine:

Wenn der Tag kommt, fragen wir uns: \ Wo finden wir Licht in diesem unendlichen Schatten? \ Der Verlust, den wir tragen, \ Ein Meer, das wir waten müssen. \ Wir haben dem Bauch des Tieres getrotzt. \ Wir haben gelernt, dass Ruhe nicht immer Frieden ist. \ Und die Normen und Begriffe \ von dem, was gerade ist, ist nicht immer nur Eis.

Processing

Wechseln wir nun also rüber, von Washington. D.C. nach Kalifornien ins Silicon Valley und zu Timnit Gebru, die bis Anfang Dezember 2020 bei dem US-amerikanischen Technologieunternehmen Google angestellt war. Gebru wies u.a. 2018 gemeinsam mit der Informatikerin Joy Buolamwini vom MIT Media Lab in ihrem Forschungspaper Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification nach, dass kommerzielle Systeme zur automatischen Gesichtserkennung für Menschen mit nicht-weißer Hautfarbe sowie weibliche Personen signifikant schlechter funktionieren als für weiße, männliche Personen. Die Forschungsergebnisse sind bis heute noch zugänglich und übersichtlich auf der Projektwebseite gendershades.org dargestellt.

Das auch State-of-the-Art Deep Learning Modelle zur algortihmischen Verarbeitung natürlicher Sprache Minderheiten und marginalisierte Gruppen diskriminieren, daraufhin wieß Gebru gemeinsam mit Emily M. Bender hin, woraufhin sie von Google entlassen wurde. Nach ihrer Entlassung gab es zwar viel Solidarität mit ihr, vor allem innerhalb der Forschungsgemeinde, die größere ethische und kulturelle Debatte, wie Google beispielsweise seine eigens gesetzten Ethikrichtlinien ständig demontiert, blieb jedoch aus, z. B. wenn der Konzern das Gmail-Archiv als Trainingsdatensatz ihrer Hauseigenen KI-Sprachmodelle einsetzt. Nicht nur der Forscher Nguyên Hoang von Science4All sieht darin ein wahrlich schlechtes Vorzeichen für zukünftige Regulierungen.

Auf welche Weise die persönlichen Informationen, mit deren Hilfe diese riesigen Sprachmodelle trainiert wurden, wieder extrahiert werden können, zeigten uns Forscher*innen Anfang Januar in ihrem Forschungspaper: „Extracting Training Data from Large Language Models.“

Das Diskriminierungsproblem großer Datensets

Sie demonstrierten darin einen Angriff auf das OpenAI-Sprachmodell GPT-2, der es ihnen ermöglichte, Hunderte von wortwörtlichen Textsequenzen aus den Trainingsdaten des Modells zu extrahieren. Diese extrahierten Beispiele enthielten (öffentliche) persönliche Informationen (Namen, Telefonnummern und E-Mail-Adressen), IRC-Konversationen, Programmiercode und 128-Bit-UUIDs.

Es ist inzwischen üblich geworden, große Sprachmodelle mit Milliarden von Parametern zu veröffentlichen (oder sie bewusst verschlossen zu halten), die mit privaten Datensätzen trainiert wurden. Das neue Sprachmodell aus dem Hause OpenAI heißt GPT-3 und wurde mit fast 500 Milliarden Wörtern aus dem Internet trainiert. Google scheint nun ein KI-Rennen zu beginnen, wahrscheinlich als Reaktion auf die begeisterten Kritiken von OpenAI oder eine angenommene Bedrohung durch chinesische Unternehmen.

In dem von Timnit Gebru und Emily M. Bender verfassten Forschungspaper mit dem Titel On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? argumentieren die beiden Forscherinnen, dass der Trend zu immer größeren Modellen und immer mehr Trainingsdaten in der Computerlinguistik dazu führe, dass nicht nur massiv Ressourcen wie Strom für riesige Serverfarmen verbraucht würden, sondern auch dazu, dass KI-Modelle und Applikationen immer schlechter kontrollierbar werden und Minderheiten diskriminieren, ohne dass es den Entwickler*innen bewusst sei.

Auch die KI hinter Google Translate wurde auf einer riesigen Anzahl von Tokens (Wörtern) aus dem Internet trainiert und „lernte“ auf Basis dessen von einer natürlichen Sprache in die gewünschte andere zu übersetzen.

Am besten lernte Google Translate natürlich Sprachgebräuche im Englischen. Nicht nur, dass die meisten KI-Sprachmodelle speziell für die englische Sprache geschrieben wurden, nein Englisch ist auch die unter Computerlinguisten und den Digital Humanities am häufigsten benutzte Sprache, so Emily M. Bender im Online-Magazin The Gradient. Generell gilt Englisch als die Sprache der internationalen wissenschaftlichen Kommunikation. Des Weiteren ist die englische Sprache eine sehr analytische Sprache mit einer ziemlich strengen Wortreihenfolge.

Die problematische Bevorzugung des Englischen

Deshalb werden die auf der Theorie der formalen Sprachen basierenden Algorithmen erfolgreicher auf isolierende Sprachen wie dem Englischen angewendet, als z. B. auf den Sprachtypus der flektierenden Sprachen, zu dem auch die deutsche Sprache gehört. Diese zeichnen sich u. a. dadurch aus, dass Lautwechsel im Stamm auftreten und Affixe (auch Beisilben genannt, Lautelemente mit einer eigenen Bedeutung) mit dem Stamm verschmelzen können. Dies bietet, im Gegensatz zu den isolierenden Sprachen, einen deutlich größeren Spielraum in der Wortreihenfolge, stellt aber auch sehr große Hindernisse bei der maschinellen Übersetzung zwischen diesen beiden Sprachen dar.

Vor allem, und dies machte Timnit Gebru deutlich, ist es unmöglich für diese Modelle, neue Slangs, auch im Englischen z.B. die bewussten Sprachgebräuche der Black Lives Matter Bewegung adäquat zu interpretieren. Neue kulturelle Normen, die sich manifestieren durch Versuche, in ihrer Kommunikation ein nichtbinäres, antisexistisches und antirassistisches Vokabular zu etablieren. Die Bedeutungsvektoren dieser vortrainierten Sprachmodelle, gerade da sie mit einem möglichst breitgefächertem Textmaterial aus dem Internet trainiert wurden, sind auf Nuancen dieses neuen Vokabulars nicht abgestimmt. Übersetzungsfragen nach kultureller und kollektiver Identität verschieben sich hierbei also auf eine andere, u. a. auf eine semiotische Ebene.

Transferieren wir nun also abschließend die Fragen, die in den letzten Wochen bezüglich der Übersetzung von Amanda Gormans Gedicht „The Hill We Climb“ debattiert wurden, hin zu den uns alltäglich gewordenen Übersetzungsmaschinen von Konzernen wie Google oder beispielsweise dem Kölner Start-Up Unternehmen DeepL: „Müssen Übersetzer:innen immer aus der Gruppe der Originalverfasser:innen sein? Und wenn ja, welche Kategorien sind relevant? Können nur Schwarze die Texte von Schwarzen übersetzen? Nur Frauen die Texte von Frauen? Und wie ist es mit einem Text von einer Schwarzen Frau: ist ein Schwarzer Mann oder eine weiße Frau besser geeignet? Und vor allem: Wer entscheidet das?”

Anm. d. Red.: Der Autor dieses Beitrags ist Mitglied der Forschungsgruppe ground zero an der Kunsthochschule für Medien Köln (KHM). Dort werden menschliche und nicht-menschliche kognitive Systeme und der gesellschaftliche Umgang mit ihnen erforscht.

4 Kommentare zu “Natural Language Processing? Übersetzungen, künstliche Intelligenz und die Frage der Identität

  1. Der chinesische Riese Huawei hat mit Pangu ein “natural-language processing”-Modell veröffentlicht, das auf etwas mehr Daten trainiert wurde als das US-Pendant GPT-3. Sie behaupten, dass das Tool bereit für den Einsatz in industriellen Anwendungen ist: https://archive.is/7Prc1

  2. Danke für diesen Text! Apropos „Dürfen Weiße Schwarze übersetzen?“: dazu hat Felix Klopotek in der aktuellen Ausgabe der konkret (5/2021) ein par sehr lesenswerte Beobachtungen und Thesen, u.a., dass die Debatte um kulturelle Aneignung einen Begriff von Aneignung “vitalisiert”, der schwammig ist und nicht zuletzt die ökonomischen Verhältnisse qua Kulturalisierung der Ausbeutung vernebelt.

Kommentar schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.