Gebärdensprach-Avatare: Der Goldrausch mit dem Preisdumping

eine Gemeinschaftsproduktion von Wille Felix Zante (Taubenschlag), Jos de Winde (DNieuws/Turkoois) und Charlotte Berthier (Médiapi)

ZUSAMMENFASSUNG

Mit dem verstärkten Aufkommen der künstlichen Intelligenz (KI) in den letzten Jahren haben mehrere Start-ups behauptet, das Problem der qualitativ schlechten Gebärdensprach-Avatare gelöst zu haben. Gebärdensprach-Avatare sind im Wesentlichen Toolkits, die mehr oder weniger darauf abzielen, gesprochene oder geschriebene Sprache in Gebärdensprachen zu übersetzen, und zwar mit Hilfe von animierten Computermodellen, die wie simple Pixar-Animationsfiguren aussehen. Diese lösen oft den „Uncanny Valley“-Effekt aus, das Phänomen, bei dem Computeranimationen fast lebensecht sind, aber für das menschliche Auge immer noch eindeutig „falsch“ aussehen. Das bedeutet, dass Gebärdensprach-Avatare als Ersatz für menschliche Übersetzungen im Großen und Ganzen nutzlos sind, weil sie fast so viel Arbeit erfordern oder so viel kosten wie eine menschliche Übersetzung, bei einem zumeist fragwürdigen Ergebnis. Im Herbst 2023 sorgte ein Unternehmen in Deutschland für großes Aufsehen in den Medien, indem es landesweit Gebärdensprach-Avatar-Kits an Kommunen verkaufte und die Medien berichteten, dass KI eingesetzt werden könnte, um Texte zugänglich zu machen. Diese Umsetzung wurde zu Recht von einer lokalen deutschen Gebärdensprachinitiative gescholten. Gleichzeitig gab der Deutsche Gehörlosen-Bund bekannt, dass er ausdrücklich vom Einsatz von Avataren abrät, weil die Technologie noch nicht ausgereift genug sei. Interessanterweise war die Person hinter der Stellungnahme des DGB in seiner beruflichen Rolle an einem der Unternehmen beteiligt, die mit dem Avatar-produzierenden (hörenden) Unternehmen eine Partnerschaft eingegangen waren. Unsere Nachforschungen ergaben auch, dass sich mit dem Verkauf dieser relativ „einfachen“, aber reichlich kritisierten Lösung an Kommunen im ganzen Land Millionen verdienen lassen, da öffentliche Einrichtungen nach deutschem Recht verpflichtet sind, ihre Websites in Gebärdensprache zugänglich zu machen und hier eine kostengünstige Alternative sahen. Die Materie ist komplex, und wir haben unser Bestes getan, um sie in dieser Zusammenfassung zusammenzufassen. Weitere Details finden sich im gesamten Originalartikel, der das Thema Avatar/AI-Goldrausch aus deutscher Sicht vertieft. Wir hoffen, dass dieses Experiment, komplexen investigativen Journalismus in die Gehörlosen-Communitys zu bringen, gelungen ist.

 

Im Laufe der Geschichte hat die Gehörlosen-Community technologischen Innovationen immer mit einer Mischung aus Hoffnung und Besorgnis entgegengesehen. Von der beängstigenden Ankunft von Telefonen und Radios bis hin zur Ära des Fernsehens und der Faxgeräte brachte jeder Fortschritt seine eigenen Herausforderungen und Chancen mit sich. Nun, da wir an der Schwelle zu einem neuen technologischen Zeitalter stehen, welche durch das Auftauchen von Avataren und künstlicher Intelligenz gekennzeichnet ist, befindet sich die Gehörlosen-Community an einem weiteren Scheideweg. Doch was bedeutet dies für die Gemeinschaft heute, und wie fügt es sich in die breitere Geschichte des technologischen Fortschritts ein? Diese Fragen werden untersucht und die wirtschaftlichen und gesellschaftlichen Auswirkungen innerhalb der Gehörlosen-Community betrachtet. Wir hatten die Gelegenheit, Maartje de Meulders, eine Expertin an der Schnittstelle von „Deaf Studies, Sprachpolitik, Gebärdensprachdolmetschen und KI-Gebärdensprachtechnologien“, sowie Ralph Raule, Unternehmer für Barrierefreiheit im Deaf Ecosystem (“Gehörlosen-Wirtschaftskreislauf”) und Beauftragter für Medien und Digitalisierung im Deutschen Gehörlosen-Bund, zu Wort kommen zu lassen.

Nach drei Jahren Forschung und Entwicklung wurden Ende 2023 Gebärdensprach-Avatare auf deutschen kommunalen Websites eingeführt. Der „Kommunaler Gebärdensprach-Avatar-Baukasten“ (KGA-Baukasten) basierte auf dem Forschungsprojekt AVASAG, das von den beiden Unternehmen Charamel und yomma aus Köln bzw. Hamburg/Berlin geleitet wurde. Der darauf aufbauende Werkzeugkasten war ein Angebot von Charamel. Das Ziel war einfach: Eine kosteneffizientere Methode zu schaffen, um Websites für Gehörlose zugänglich zu machen, basierend auf der Idee, dass die meisten schriftlichen Inhalte, wie z. B. die von der Datenschutz-Grundverordnung geforderten Datenschutzinformationen, zwischen den Websites ziemlich austauschbar sind.

Für diesen Artikel hat Deaf Journalism Europe die aktuelle Situation in Deutschland recherchiert, wo der Deutsche Gehörlosen-Bund (DGB) von der Verwendung von Avataren in Gebärdensprache abgeraten hat, nachdem sich halbautomatische Avatar-Übersetzungsdienste immer weiter verbreitet haben. Wir nehmen dies als Ausgangspunkt, um Risiken und Chancen für die Gehörlosen-Community zu bewerten. Die Expertise der gehörlosen Forscherin Maartje De Meulder, die wir per E-Mail interviewt haben, deckt die akademische Perspektive dieser Angelegenheit ab, die sich mit Technologie, Ethik und Wirtschaft überschneidet. 

Die Geschichte der Gebärdensprachavatare geht auf das Jahr 1982 zurück und entstand aus der Notwendigkeit, Gebärdensprache in schriftliche Informationen zu übersetzen. Dieses Unterfangen stieß jedoch auf erhebliche Schwierigkeiten. Im Gegensatz zu Schriftsprachen gibt es für Gebärdensprachen keine allgemein anerkannte Schriftform. Stattdessen werden verschiedene Notationssysteme wie HamNoSys oder die Stokoe-Notation verwendet, die nicht leicht zu übersetzen sind. Darüber hinaus erschwert das Fehlen umfassender Korpora für Gebärdensprachen den Prozess zusätzlich und verhindert ähnliche Fortschritte wie bei der Transkription und Übersetzung von Schriftsprachen, die durch Technologien wie DeepL oder Google Translate erleichtert werden.

Das langfristige Ziel von Avataren ist es, menschliche Dolmetschende zu ersetzen, worüber wir später in diesem Artikel mit der Forscherin Maartje De Meulder sprechen werden. Kurzfristig ist dies noch nicht möglich, aber mehrere Projekte haben verständliche, jedoch bei weitem nicht perfekte Avatare hervorgebracht. Während an vielen Forschungs- und kommerziellen Projekten gehörlose Fachleute beteiligt waren, löste ein Projekt im letzten Jahr eine Kontroverse aus, weil es Avatare für offizielle Institutionen und Gemeinden anbot, die auf der Suche nach kosteneffizienten Möglichkeiten waren, um die ansonsten sehr laxen Gesetze zur Barrierefreiheit in Deutschland einzuhalten. Es ist offensichtlich, dass das Hauptziel hier die Kostensenkung ist, während gleichzeitig das Problem der Verfügbarkeit von Dolmetschenden/Übersetzenden gelöst wird.

Bei Recherchen von DJE-Partnern wurde ein Papier entdeckt, in dem die Anwendung des kommunalen Avatar-Projekts in einer Stadt diskutiert wird. In dem Papier, das als Grundlage für eine Entscheidung des Stadtparlaments diente, werden Kosten von 3.750 Euro pro Jahr genannt, was im Vergleich zu den 170 Euro pro Stunde, die Gebärdensprachdolmetschenden aus Fleisch und Blut kosten würden, ein reines Schnäppchen ist. Die Zahl basiert auf dem in Deutschland allgemein akzeptierten Stundensatz für zwei Dolmetschende, der in den meisten Fällen bei 85 Euro pro Stunde für eine Person liegt. In dem Papier wird nicht erwähnt, dass Medienübersetzende in der Regel je nach Ergebnis noch mehr verlangen: zwischen 70 und 120 Euro pro Filmminute. Es ist natürlich schwierig, Dolmetschen und Übersetzen miteinander zu vergleichen, und zeigt, wie wenig die Leute, die das letztlich entscheiden, über das Thema wissen.

Ein DGB-Vertreter in einer Doppelrolle – zwischen Wirtschaft und Politik

In jedem Fall wären die Kosteneinsparungen in diesen Fällen sehr greifbar und ein großer Anreiz für Gemeinden und andere öffentliche Einrichtungen, auf Avatare umzusteigen, die auf lange Sicht immer mehr automatisiert werden könnten. Als das Forschungsprojekt AVASAG vor drei Jahren startete, waren Charamel und yomma begeistert von der Zusammenarbeit, doch im Herbst 2023 zeigten sich die ersten Risse. 

Das Kompetenzzentrum Gebärdensprache in Bayern (KOGEBA), eine neue Initiative, die eng mit dem Münchner Gehörlosenverband verbunden ist, protestierte gegen die Verwendung von Gebärdensprach-Avataren und kritisierte, dass eine der am Joint Venture von Charamel und yomma beteiligten Personen eine Doppelrolle als DGB-Vertreter hätte. Auf Nachfrage der DJE-Partner beteuerten beide Unternehmenssprecher sowie der DGB-Vertreter, dass alles mit rechten Dingen zugegangen sei und dass die Expertise und der Hintergrund des Vertreters mit den technischen Lösungen genau der Grund für seine Beteiligung an dem Projekt gewesen sei. 

In der Zwischenzeit tauchten auf landesweiten Websites Avatare auf, die von Charamel mit Hilfe des offenbar im Rahmen des AVASAG-Projekts entwickelten Toolkits konstruiert worden waren – alle identisch, aber angepasst an die Städte, deren Inhalte sie angeblich übersetzen. 

Wir schreiben das Frühjahr 2024. KOGEBA hat eine weitere öffentliche Erklärung abgegeben, in der sie die mit dem Toolkit erstellten Avatare untersucht. Diesmal konzentrieren sie sich auf Websites, die den Avatar bereits implementiert haben, wie z. B. das Zeppelin-Museum in Friedrichshafen und mehrere andere Websites, die meist Kommunen gehören und das kommunale Avatar-Toolkit von Charamel verwenden. KOGEBA stellt fest, dass die Avatare unzureichend sind, insbesondere wenn Fachgebärden wie die Namen der Städte verwendet werden. Die Darstellung des Fingeralphabets wird als zu langsam und zu lang ausgedehnt kritisiert, die Gebärden sind schwer zu verstehen, sagt KOGEBA. 

Einige Tage nach dieser Untersuchung veröffentlichte der Deutsche Gehörlosen-Bund in Zusammenarbeit mit dem Bundesverband der Dozenten für Gebärdensprache e.V., der Deutschen Gesellschaft der Hörbehinderten – Selbsthilfe und Fachverbände e.V.und dem Berufsverband der tauben GebärdensprachdolmetscherInnen e.V. eine weitere kurze und, Zitat, „vorläufige“ Stellungnahme zum Einsatz von Avataren: Sie sprach sich entschieden gegen Avatare aus. Die Person, die das Video dazu gebärdete, war der DGB-Vertreter, der zuvor für seine Doppelrolle im AVASAG-Forschungsprojekt kritisiert wurde: Ralph Raule. Wie kam es zu dieser Spaltung? Wir haben yomma, Charamel und natürlich auch Raule angeschrieben. Alle haben geantwortet, mit Ausnahme von yomma, die sich entschuldigten, aber noch nicht antworten können. Auch der DGB hat die angekündigte gemeinsame Schlusserklärung nicht veröffentlicht. Als wir ihn im Frühjahr 2024 interviewten, bestand Raule darauf, dass wir ihn als Vertreter des DGB und nicht in seiner Rolle bei yomma zitierten.

Aber zunächst einmal: Was sind Avatare?

Avatare sind digitale Repräsentationen, die in virtuellen Umgebungen verwendet werden – also z.B. auf Bildschirmen angezeigt werden. Ein Gebärdensprach-Avatar ist eine gebärdende animierte Figur. Gebärdensprach-Avatare sprechen die Gebärdensprachen. Es gibt verschiedene Techniken, die dafür verwendet werden können.

Die erste setzt auf Bewegungserfassung, bei der eine gebärdende Person einen Anzug mit Markern trägt. Kameras aus verschiedenen Blickwinkeln erfassen die Bewegungen, und die Marker helfen dabei, die Bewegungen zu Animationen zu verarbeiten, die für digitale Darstellungen, also eben die Avatare verwendet werden.

Die zweite Methode setzt auf Programmierung. Dabei werden Elemente wie Handformen, Handposition und -richtung sowie Gesichtsausdrücke, Mundformen, Augen und Augenbrauen in Animationen umgewandelt. Diese werden dann in Bewegungen programmiert.

Diese beiden Methoden können auch kombiniert werden, indem die Bewegungserfassung für einzelne Gebärden und manuelle Programm-Anweisungen für den Übergang und die Kombination von Gesten verwendet werden.

Haben Avatare einen Zweck?

Maartje de Meulders, eine gehörlose Forscherin aus Belgien, sagt: „Es gibt auf jeden Fall alltägliche Anwendungsfälle für die Produktion/Generierung von Gebärdensprache in Form von Avataren (virtuellen Menschen), zum Beispiel in Bereichen wie dem Gastgewerbe, Tourismus und für halbautomatische Kundeninteraktion (vergleichbar mit Chatbots).“ De Meulder beschreibt sich selbst als an der Schnittstelle von „Deaf Studies, Sprachpolitik, Gebärdensprachdolmetschen und KI-Gebärdensprachtechnologien“ arbeitend. Sie ist neugierig darauf, wie sich diese Bereiche „auf das tägliche Leben und die Rechte von Gehörlosen und den breiteren Kontext der Gebärdensprachrechte auswirken.“

Avatare haben in einigen Anwendungsfällen einen eindeutigen Vorteil gegenüber Dolmetschenden aus Fleisch und Blut. Es gibt viele Orte, an denen Avatare stattdessen eingesetzt werden könnten. In Zügen, am Flughafen, in sozialen Medien oder um Orte zugänglicher zu machen, insbesondere wenn nicht bekannt ist, ob es dort gehörlose Gebärdensprachbenutzende gibt. Avatare sollten Gebärdensprachdolmetschende idealerweise nicht ersetzen, sondern sie ergänzen. „Automatisierte Übersetzung kann dazu beitragen, einige der derzeitigen Einschränkungen bei menschlichen Gebärdensprachdolmetschenden zu mildern, aber dies erfordert erhebliche technologische Fortschritte“, sagt De Meulder.

In Zukunft könnte man einen Avatar in Situationen einsetzen, in denen keine dolmetschende Person zur Verfügung steht, oder vielleicht in Situationen, in denen man es vorziehen würde, keine Dolmetschenden zu haben. Diese Technoligie ist grundsätzlich eine positive Entwicklung, aber es muss noch viel getan werden, um sie nutzbar zu machen. Man kann sie auch im Zusammenhang mit gehörlosen Kindern und ihren hörenden Eltern betrachten. Beim Erlernen der Gebärdensprache kann ein Avatar auch eine Ergänzung sein, z. B. zwischen den Unterrichtsstunden, damit Eltern, welche die Gebärdensprache lernen wollen, mehr Möglichkeiten zum Üben haben.  Generell können Avatare dazu beitragen, das Bewusstsein und die Sichtbarkeit von Gebärdensprachen zu erhöhen.

Warum sind Gehörlose so lautstark gegen Avatare?

In der Gehörlosen-Community gibt es eine gewisse Abneigung gegen die Verwendung von Avataren in Gebärdensprache. De Meulder kommentiert dies:

„Derzeit sind die meisten Avatare, die gehörlosen Nutzenden vorgestellt werden, Prototypen und entsprechen möglicherweise nicht vollständig den Bedürfnissen der Nutzenden. Normalerweise wird das Feedback von hörenden Entwickler*innen in Test-Umgebungen eingeholt, was die reale Nutzung möglicherweise nicht genau widerspiegelt. Das Risiko bei dieser Art von Nutzungsfeedback besteht darin, dass gehörlose Menschen die Gebärden der Avatare als einen weiteren Gebärdenstil ansehen, mit dem sie sich abfinden und lernen müssen, ihn zu „verstehen“ (genauso wie sie lernen müssen, die Gebärden von menschlichen Dolmetschenden zu verstehen). Dies kann zu erwünschten Reaktionen führen, also nicht zu ehrlichem Feedback. Es besteht auch das Risiko, dass die Befragten in den Umfragen unbewusst voreingenommen sind: „Die Befragten könnten sagen, dass sie verstanden haben, nur weil sie glauben, dass von ihnen erwartet wird, dass sie diese Technologie, die ‚für‘ sie gemacht ist, zu schätzen wissen.“ Ein Problem der Forschung in diesem Bereich ist, dass es keine zuverlässigen praktischen Daten gibt: „Es ist ein großer Unterschied, ob man einen Avatar für ein kurzes Experiment auf einem Bildschirm im eigenen Büro sieht oder ob man ihn während eines nervenaufreibenden Arzttermins beobachten muss.“

De Meulder fährt fort, über die Erwartungen innerhalb der Gehörlosen-Community zu sprechen: „Einige Gehörlose haben hohe Erwartungen an Gebärdensprach-Avatare und hoffen auf eine magische Lösung, die den Zugang verbessern kann. Es ist wichtig, mit den Erwartungen vorsichtig umzugehen und die Fähigkeiten von Gebärdensprachtechnologien nicht überzubewerten.“

Sie sieht jedoch die Gefahr, dass Regierungen Avatare als billigen Ausweg auf dem Weg zur vollständigen Barrierefreiheit einsetzen: „Viele Gehörlose befürchten, dass die Regierungen in manchen Situationen den kostengünstigen Weg mit mittelmäßiger maschineller Übersetzung anstelle von menschlichen Dolmetschenden wählen werden und dass Gehörlose gezwungen werden, maschinelle Übersetzung in Situationen zu akzeptieren, in denen sie nicht gerechtfertigt ist. Diese Besorgnis rührt von den Erfahrungen her, die Regierungen und andere Institutionen im Umgang mit sprachlicher Vielfalt und Mehrsprachigkeit gemacht haben. Wir wissen, dass dies ein gefährlicher Weg ist: Gehörlose haben sich beispielsweise gegen den Einsatz von VRI (Video Remote Interpreting, zu deutsch: Ferndolmetschen, Anm. d. Red.) in Krankenhäusern gewehrt, und doch wird der Einsatz von VRI in einigen medizinischen Situationen inzwischen weitgehend akzeptiert.“

Avatare in Gebärdensprache: Technologie, Interessenvertretung und ethische Bedenken im Spannungsfeld

Kritik an Gebärdensprach-Avataren gab es bereits 2018, als der Weltverband der Gehörlosen (WFD) zusammen mit dem Weltverband der Gebärdensprachdolmetschenden (WASLI) eine Stellungnahme zur Verwendung von Gebärdensprach-Avataren veröffentlichte. Hauptkritikpunkt war, dass computergenerierte Übersetzungen nicht die Qualität von menschlichen Dolmetschenden erreichen können, insbesondere im Hinblick auf soziolinguistische und soziokulturelle Faktoren. Vor allem in lebensbedrohlichen Situationen, in denen sich Gehörlose in Notsituationen befinden, sollten Avatare nicht eingesetzt werden, da die Fehlerquote zu hoch ist und – dies ist ein weiterer wichtiger Punkt – es keine Zwei-Wege-Kommunikation mit Avataren gibt. Das bedeutet, dass Informationen zwar übersetzt werden können, Gehörlose aber nicht in der Lage wären, selber etwas zu sagen oder übersetzen zu lassen oder bei Unklarheiten nachzuhaken. Ähnlich wie bei den Gebärdensprach-Handschuhen scheint die Avatar-Forschung weitgehend zu ignorieren, dass Gehörlose tatsächlich in der Lage und gewillt sind, zu antworten. Zwei-Wege-Kommunikation ist etwas, was Avatare selbst im Jahr 2024, sechs Jahre nach der gemeinsamen Erklärung von WFD und WASLI, nicht leisten können. 

De Meulder differenziert den Einsatz in „Notsituationen“: „Es ist wichtig, Prioritäten für die Anwendungsbereiche zu setzen und die problematischen Forschungsbereiche zu identifizieren, während man Raum für die unproblematischen lässt. Es gibt einen Unterschied zwischen einem Avatar, der Informationen auf einer Regierungswebseite präsentiert, und einem Avatar, der in einer lebensbedrohlichen Gesundheitssituation die Kommunikation vermittelt. Die Priorisierung und Unterscheidung verschiedener Anwendungsbereiche wird den Stand der Technik so voranbringen, dass es wahrscheinlicher ist, dass die Technologien von den Endnutzenden angenommen werden. Es ist auch wichtig, innerhalb der Anwendungsbereiche Prioritäten zu setzen und zwischen den verschiedenen Anwendungen pro Bereich zu unterscheiden. Zum Beispiel sind nicht alle Anwendungen im medizinischen Bereich gleich. Einige könnten nützlich sein, z. B. der Check-in in einem Krankenhaus, während andere nicht in Frage kommen, z. B. bei lebensbedrohlichen Operationen oder andere kritische Bereiche.

2019 schlossen sich drei österreichische Verbände mit weiteren Stellungnahmen an, in denen sie von der Verwendung von Avataren abrieten. Der sprachwissenschaftliche Verein Verbal warnte vor der Verwendung von Avataren, weil sie die Gebärdensprache wie eine „künstliche“ Sprache aussehen lassen und Gehörlosen, insbesondere Kindern, reale Vorbilder vorenthalten würden. Das Hauptargument der Avatar-Befürworter*innen, dass Avatare langfristig eine billigere Übersetzungslösung darstellen würden, widerlegen sie mit dem Hinweis, dass Menschenrechte, wie das Recht auf Zugang zur Kommunikation, nicht mit Geld aufgewogen werden können.

Sie befürchten, dass durch die Aufstockung der Mittel für die Avatar-Forschung weniger Mittel für die tatsächliche Gebärdensprachforschung und die Unterstützung der Österreichischen Gebärdensprache, die ein anerkanntes kulturelles Erbe der Vereinten Nationen ist, zur Verfügung stehen werden. Der Österreichische Gehörlosen-Bund (ÖGLB) ist wie WFD und WASLI der Meinung, dass die Forschung und Produktion von Gebärdensprach-Avataren immer von gehörlosen Fachleuten geleitet, überwacht und evaluiert werden sollte. Der ÖGLB zeigt sich besorgt darüber, dass Gehörlose für die Darstellung der Gebärdensprachen immer mehr an Bedeutung verlieren. 

Alle Verbände, auch der europäische Gehörlosenbund (EUD), sind sich einig, dass Gebärdensprach-Avatare für nicht lebenswichtige Informationen wie verspätete Züge und Wettervorhersagen eingesetzt werden können. Sie sind sich aber auch auf der anderen Seite des Spektrums einig: Avatare sollten niemals für lebenswichtige Informationen wie in Notfällen oder Katastrophen eingesetzt werden. 

De Meulder hält es für notwendig, dass die Gegner*innen der Avatare ihre Beiträge mit Fakten und eigener Forschung untermauern: „Gehörlose Organisationen müssen sich auf potenziell störende Veränderungen vorbereiten, die durch Fortschritte in der Sprachtechnologie, insbesondere der maschinellen Übersetzung, verursacht werden. Ich würde sagen: Schaut auf den Horizont. Gehörlosenverbände können dazu beitragen, proaktiv eine Politik zu gestalten, die zukünftige Entwicklungen vorwegnimmt und sicherstellt, dass Gehörlose weiterhin die Wahl haben, wie sie auf Informationen zugreifen. Ein weiterer Punkt, über den Gehörlosenverbände (und Gebärdensprachdolmetscherverbände und -ausbildungsprogramme!) nachdenken müssen, ist die Frage, wie sich dies auf den Beruf der Gebärdensprachdolmetschenden auswirken wird.“

Es ist klar, dass das sturmflutartige Auftauchen von Avataren nicht aufzuhalten ist und dass die Gehörlosen-Community dieser Entwicklung folgen und sich an ihr beteiligen muss, wenn sie die Fortschritte bei der Accessibility (= Zugänglichkeit) nicht wieder verlieren will. Wir können uns jedoch die Frage nach der Ethik dieser Beteiligung stellen. Dies ist in der Tat ein Problem in der Welt der Gehörlosen-Akademiker*innen wie auch in der Welt der Gehörlosen-Politik. 

Die Gehörlosen-Community und ihre Beteiligung an der Entwicklung von Avataren: eine heikle Situation

Der Deutsche Gehörlosen-Bund (DGB) hatte sich zum Thema Gebärdensprach-Avatare bedeckt gehalten, erinnert sich Ralph Raule, der aktuelle Beauftragte für Medien und Digitalisierung des DGB. Wir sprachen mit ihm über die vorläufige Stellungnahme, die 2024 eilig veröffentlicht wurde, nur wenige Tage, nachdem die zweite Stellungnahme der bayerischen KOGEBA-Initiative einschlug. Diese hatte bereits im November 2023 gegen das AVASAG-Projekt protestiert und behauptet, dass das 2020 gestartete Projekt gehörlose Fachleute nicht in die relevanten Phasen der Produktion von Gebärdensprach-Avataren einbezieht. 

Vor allem aber kritisierten sie, dass Ralph Raule an AVASAG, einem kommerziellen Projekt, beteiligt sei und gleichzeitig die Funktion des Beauftragten für Medien und Digitalisierung beim DGB innehat. Raule, der eine Gebärdensprach-Filmproduktionsfirma namens yomma gegründet hat und an ihr beteiligt ist, wies diese Vorwürfe ebenso zurück wie alle Projektpartner von AVASAG. Sie behaupten auch, dass entgegen der Kritik der KOGEBA tatsächlich gehörlose Fachleute beteiligt waren. Das war im November 2023. 

Seitdem sind im selben Herbst Dokumente von Kommunen aufgetaucht, in denen die Preisgestaltung für Gebärdensprach-Avatare von Charamel diskutiert wurde. Konkret diskutierte der Landkreis Tuttlingen über die Finanzierung und Realisierung der Avatarnutzung auf seinen Websites. Für zwei Jahre wurden 3.750 € veranschlagt, mit einer zusätzlichen zweijährigen „kostenlosen“ Abdeckung. Dies würde für vier Jahre Kosten in Höhe von 3.750 € bedeuten. Es ist unklar, ob dies auch in Zukunft der Fall sein wird oder nicht. “Wir sind davon überzeugt, dass wir den Einsatz „echter“ Gebärdensprachdolmetschenden durch den Einsatz digitaler Avatare reduzieren können“, heißt es in dem Papier. „Echte“ (sic!) Gebärdensprachdolmetschende werden mit 170 € pro Stunde für zwei Personen angegeben. Legt man diesen Satz zugrunde, bei dem alle anderen Kosten, wie z. B. Fahrtkosten, nicht berücksichtigt sind, könnte man mit dem gleichen Betrag, den Charamel für vier Jahre in Rechnung stellen würde, nur etwa 22 Stunden Dolmetschen abdecken. Das Dokument vergleicht den digitalen Avatar weiterhin mit den Text-zu-Sprache-Funktionen, die bereits auf ihren Websites implementiert sind. Das Dokument kündigte außerdem in aller Stille die Einführung dieser Avatare auf kommunalen Websites ab dem Jahreswechsel 2023/2024 an. 

Der Süden passt auf

Dem stets wachsamen KOGEBA ist dies nicht entgangen. In seinem zweiten Text, der am Valentinstag 2024 veröffentlicht wurde, führ KOGEBA 23 Kommunen auf, die Gebärdensprachavatare verwenden. Darunter sind die großen deutschen Städte München, Duisburg, Würzburg und Regensburg. Wenn man davon ausgeht, dass die Preise für alle Kommunen gleich sind, lässt dies auf ein Umsatzvolumen von etwas mehr als 86.000 € schließen. (Nach Rücksprache mit Charamel wird eine geschätzte Mindestlizenzgebühr von 1.000 € pro Jahr genannt, was in etwa den 3.750 € entspricht, die für die Nutzung der Avatare für vier Jahre anfallen). In Deutschland gibt es etwas mehr als 10.000 Gemeinden, was ein potenzielles Umsatzvolumen von 37 Millionen Euro in vier Jahren ermöglicht, und das mit einem Konzept, das wesentlich billiger ist als menschliche Gebärdensprachdolmetschende. Mit der Entwicklung, Erprobung und Lizenzierung von Avataren lässt sich also viel Geld verdienen.

Nach der zweiten Stellungnahme der KOGEBA hat der Deutsche Gehörlosen-Bund (DGB) schnell reagiert und gemeinsam mit dem Bundesverband der Dozenten für Gebärdensprache e.V., der Deutschen Gesellschaft der Hörbehinderten – Selbsthilfe und Fachverbände e.V. und dem Berufsverband der tauben GebärdensprachdolmetscherInnen e.V. eine Stellungnahme veröffentlicht, in der er sich klar gegen den Einsatz von Gebärdensprach-Avataren ausspricht. 

Diese Erklärung wurde von Ralph Raule abgegeben, demselben Beauftragten, dessen Beteiligung am Avatarprojekt AVASAG über seine Firma yomma zuvor kritisiert wurde. Wie kam es zu diesem Sinneswandel? 

In einem E-Mail-Interview stellt Raule gleich ein paar Dinge klar. Die Avatare, die in der zweiten Stellungnahme kritisiert wurden, nämlich die des Zeppelin Museums in Friedrichshafen, seien experimentell gewesen, sagt er. „Die Idee war, zu testen, was man alles benötigt und wie weit die Technik ist, um dann später einen guten Gebärdensprach-Avatar zu entwickeln.“ Was heute auf der Zeppelin-Website zu sehen ist, sei rein experimentell, und die Personen, die für die Bewegungserfassung eingesetzt wurden, waren nicht als Dolmetscherin ausgebildet oder zertifiziert. „Zudem war auch klar, dass es zu keiner Veröffentlichung kommen soll, bevor diese Aufnahmen nicht von qualifiziertem Personal (explizit: taube Gebärdensprach-Dolmetscher) überarbeitet und abgenommen wurden,” sagt er. „Man kann folglich nicht von einem ausgereiften Produkt sprechen und das ist für alle offenkundig sichtbar, wenn man sich in Gebärdensprache auskennt.“ Er betont noch einmal, dass er darauf bestanden habe, die experimentellen Videos nicht auf öffentlich zugänglichen Websites zu verwenden. „Beim KGA waren wir als yomma gar nicht eingebunden, außer dass wir mitbekommen haben, dass er entwickelt und dazu kräftig die Werbetrommel gerührt wird.“

Alexander Stricker, Inhaber des Avatar-Unternehmens Charamel, das seinen Avatar derzeit bundesweit an Kommunen verkauft, erklärt uns in einer E-Mail: „Wir legen jedoch großen Wert darauf, die Nutzerinnen und Nutzer schon in einem frühen Stadium einzubeziehen.“ Das Produkt, so fährt er fort, „wird im Rahmen iterativer, also fortlaufender Prozesse entwickelt.“ Er sagt, er sei „explizit dankbar“ für die zweite KOGEBA-Erklärung, die Charamel helfe, seine Technologie zu verbessern. 

Auf die Frage, warum die vorläufige Stellungnahme des DGB so schnell nach der zweiten KOGEBA-Stellungnahme erfolgte, räumt Raule ein, dass der DGB bereits 2020 eine Stellungnahme in Arbeit hatte, der DGB aber nicht zufrieden damit war, weil die Technologie so schnell voranschritt. Im Dezember 2023 kam es zu Gesprächen mit KOGEBA. Raule sagt, KOGEBA habe ihn gefragt, warum der DGB seine Stellungnahme noch nicht veröffentlicht habe und ob es an seinem doppelten Engagement bei yomma/AVASAG und dem DGB liege. „Diese Frage hat den Ausschlag gegeben, dass ich mich endlich mit der Stellungnahme befasse.“ Er stellt klar, dass die Erklärung das Produkt von vier großen Verbänden ist und als solches einige sehr spezifische Formulierungen enthält. Die Erklärung steht in engem Zusammenhang mit ihren Versuchen, eine einheitliche Richtlinie für Qualitätsstandards der Gebärdensprache in Medien und Übersetzung zu schaffen. Der Fortschritt der Avatar-Technologie hat Druck ausgeübt, die Erklärung zu verabschieden, sagt Raule. „Viele der Behörden gehen offenbar davon aus, dass ein Avatar nun ein Allheil-Mittel für die mangelnde Barrierefreiheit ihrer gehörlosen Bürger darstellt, ohne wirklich die Deaf Community dazu zu befragen, wie das wirklich mit der Akzeptanz ist. „

Seit dem Bekanntwerden des kommunalen Avatar-Projekts berichten immer mehr Zeitungen, dass es bald möglich sein wird, KI einzusetzen, um geschriebene oder gesprochene (auditive) Sprache in Gebärdensprache zu übersetzen. Auf Nachfrage haben die (hörenden, nicht gebärdensprachkundigen) Journalist*innen, die an diesen Artikeln beteiligt sind, zugegeben, dass sie sich speziell auf das kommunale Avatar-Projekt beziehen, das von KOGEBA in die Kritik geraten ist und als nicht produktionsfähig abgelehnt wurde. Wir haben Alexander Stricker von Charamel gefragt, ob yomma klar gemacht wurde, dass das experimentelle Material in realen Szenarien verwendet werden würde oder nicht. Stricker antwortete, dass die Forschungsergebnisse aus dem Projekt AVASAG, das Charamel initiiert hat und an dem yomma neben anderen Partnern beteiligt war, von jedem Projektpartner verwendet werden können. Dies, so Stricker, sei in einem Vertrag zwischen allen Partnern geklärt worden.

Zusammenfassung und Ausblick: Wie geht es jetzt weiter?

Man braucht sich nur die Fortschritte seit den ersten von der KI generierten Videos im Jahr 2023 bis zur Sora-KI-Videogeneration im Jahr 2024 anzusehen, um zu erkennen, dass der technologische Fortschritt extrem schnell vorangeht. Auch schriftliche Sprachübersetzungen wie DeepL sind dank der Fortschritte der KI sehr zuverlässig geworden. Es ist nicht abwegig, dass KI zur Verbesserung des automatischen Gebärdensprachdolmetschens durch Avatare eingesetzt wird, auch wenn die meisten Menschen dem skeptisch gegenüberstehen und der „uncanny valley“-Effekt, den viele mit Gebärdensprach-Avataren assoziieren, etwas ist, das berücksichtigt werden muss. 

Spätestens seit dem Debüt der Memoji-Avatare auf dem iPhone X von Apple und vieler verschiedener Instagram- und TikTok-Filter ist klar, dass Motion Tracking auch ohne komplette Motion-Capture-Anzüge und spezielle Technik für normale Nutzer möglich ist. Das kalifornische Unternehmen hat seitdem noch „Personas“ vorgestellt, die im Grunde individuell gestaltete Avatare für die Verwendung im Videochat sind, wenn das neue Vision Pro-Headset verwendet wird. Sie zeigen, dass es möglich ist, die meisten Bewegungen und Handformen sehr genau zu kopieren und den “uncanny valley”-Effekt fast zu umgehen. 

Abgesehen vom Aspekt des Dolmetschens gibt es auch andere Verwendungsmöglichkeiten für diese allgemeine Technologie, wie die Forschung der RWTH Aachen zur Anonymisierung durch Gebärdensprach-Avatare zeigt. Anonyme Gebärdensprache ist so gut wie unmöglich, aber Avatare – oder anpassbare „Personas“, wie Apple es nennt – könnten eine Ebene der Geheimhaltung oder Neutralität für Gebärdensprachdolmetscher bieten. Da Avatare jedoch wahrscheinlich hauptsächlich als Kostensenkungsmaßnahme gegenüber menschlichen Dolmetschenden eingesetzt werden, ist es unwahrscheinlich, dass dies finanziert wird und sich durchsetzt. Wie der österreichische Verein Verbal sagte, können Menschenrechte nicht mit Geld aufgewogen werden – dies sollte die wichtigste Erkenntnis aus der Frage der Avatare sein, und man kann sehen, wie viel Geld mit der Bereitstellung von „Dolmetscherdiensten“ zu viel niedrigeren Kosten zu verdienen ist.

De Meulder sieht eine besondere Herausforderung für gehörlose Forscher*innen. Einerseits sind sie gezwungen, sich in einem Umfeld mit hörenden Mitforschenden von ihrer besten Seite zu zeigen, und haben mit Macht- und Kommunikationsungleichgewichten zu kämpfen: „Viele gehörlose Forscher*innen haben die Erfahrung gemacht, dass sie gebeten werden, an KI-Projekten in Gebärdensprache mitzuarbeiten, oft lange, nachdem die Idee entwickelt, das Team zusammengestellt und die Forschung durchgeführt wurde oder sogar kurz vor der Fertigstellung des Projekts. Dies führt oft zu einer Zwickmühle für gehörlose Forscher*innen, da die Technologien entwickelt und die Forschungsergebnisse unabhängig von unserer Beteiligung veröffentlicht werden, während unsere Beteiligung eine Befürwortung implizieren kann.“

Derzeit verweist De Meulder auf 10 Forschungsprojekte seit 2015, die alle von der Europäischen Union mit fast 26 Millionen Euro gefördert wurden. Wie bei den meisten Technologien ist die Entwicklung wirtschaftlich motiviert: „Das ist bei den Gebärdensprachtechnologien nicht anders, auch wenn die wirtschaftlichen Anreize aufgrund der geringeren Größe des Marktes vielleicht anders sind. Aber sie sind immer noch ausgeprägt und haben nicht nur mit der Erzielung von Gewinn zu tun, sondern auch mit der Senkung der Kosten.“ Sie sieht dies nicht unbedingt im Widerspruch zu den Menschenrechten und der Zugänglichkeit, sondern es sollte überlegt werden, wie „diese Technologien genutzt werden können, um den Zugang für Gehörlose zu verbessern, und nicht nur gegen ihre wirtschaftlichen Anreize abgewogen werden.“

Die Debatte über die ethischen Aspekte von Gebärdensprach-Avataren geht weiter. Die größte Gefahr für die Gehörlosen-Community besteht darin, dass die Integrität der Gebärdensprache und der Gehörlosenkultur gefährdet wird. Gebärdensprach-Avatare könnten die Qualität und Authentizität der Gebärdensprache beeinträchtigen, indem sie sie künstlicher wirken lassen oder wichtige kulturelle und soziolinguistische Aspekte eliminieren. Darüber hinaus bestehen Bedenken hinsichtlich der kommerziellen Nutzung dieser Technologie, die eher von wirtschaftlichen Interessen als von ethischen und sozialen Überlegungen zur Verbesserung der Zugänglichkeit für die Gehörlosen-Community geleitet sein könnte. Wenn Gebärdensprach-Avatare nicht auf verantwortungsvolle Weise entwickelt werden, mit sinnvoller Beteiligung der Gehörlosen-Community selbst und mit besonderem Augenmerk auf die Erhaltung der Gebärdensprache und der Gehörlosenkultur, könnten sie letztlich mehr Schaden als Nutzen anrichten.