Podcast "Digital leben" Künstliche Intelligenz und Medien: eine Chance für die Barrierefreiheit?

06. Januar 2023, 08:09 Uhr

Aus gesprochenen Worten Texte machen – das können Methoden der künstlichen Intelligenz schon länger recht zuverlässig. So entstehen zum Beispiel viele Untertitel auf Videoplattformen. Lässt sich das auch nutzen, um gehörlosen Menschen Nachrichten und Filme nähe zu bringen? Lassen sich gar mit Hilfe von KI-Methoden Avatare erschaffen, die Gebärdensprache beherrschen und so automatisiert Filme oder Nachrichten zugänglicher machen? Ganz so einfach ist es nicht.

Ein großer Mann mit Locken und Brille steht vor einer Betonwand.
Bildrechte: MDR/Viktoria Schackow

  • Die meisten Webseiten, Internet-Werkzeuge und Technologien entstanden, ohne an seh- oder hörbehinderte Nutzer und Nutzerinnen zu denken. Im MDR gibt es deshalb die Redaktion Barrierefreiheit.
  • Weltweit werden Werkzeuge entwickelt, die mit Methoden der künstlichen Intelligenz daran arbeiten, dass seh- oder hörbehinderte Nutzer und Nutzerinnen Medien besser nutzen können: Bildbeschreibungen, Untertitel und Gebärdendolmetschen.
  • Trotzdem ist das meiste nach wie vor "Handarbeit" und so schnell lässt sich das wohl nicht ändern. Denn es gibt technische und emotionale Herausforderungen.

Die meisten Menschen, die Internet oder Fernsehen nutzen, tun das, ohne groß darüber nachzudenken. Aber die meisten Menschen, die Internet und Fernsehen entwickelt haben, gestalten und konsumieren, sind auch voreingenommen: Sie können nämlich sehen und hören. Aber was im Fernsehen zu sehen und auf Webseiten zu klicken ist, können seh- oder hörbehinderte Menschen nur eingeschränkt wahrnehmen.

Digital leben

Alle anzeigen (85)

Für sie will Georg Schmolz Medieninhalte zugänglicher machen. Er ist beim MDR für Barrierefreiheit zuständig. "Wir machen das Visuelle und das Akustische für Menschen mit Hör- oder Sehbehinderungen zugänglich", sagt Schmolz. Seine Abteilung verantwortet Audiodeskription, Untertitel oder Gebärdensprache für Filmen oder Serien.

Bei der Audiodeskription für Sehbehinderte beschreibt eine Stimme das wichtigste, was auf dem Bildschirm passiert und zu sehen ist. Untertitel und Gebärdensprache geben für Hörbehinderte das Gesagte wieder: als Text oder als Gebärde. "Außerdem haben wir auch Angebote für kognitiv eingeschränkte Menschen. Da geht es um leichte Sprache, um verständlichere Formulierungen", sagt Schmolz.

Gebärdensprache würde der MDR viel häufiger anbieten, sagt Schmolz. Aber: "Es gibt in Deutschland nur 800 Gebärdendolmetscherinnen und -dolmetscher", sagt Schmolz im Podcast "Digital leben" bei MDR SACHSENANHALT. Noch mehr Angebote mit der knappen "Ressource" Gebärdendolmetscher in Gebärdensprache sind also kaum möglich.

Hoffnung: KI-Unterstützung für Gebärdensprache

Können digitale Technologien, Methoden der künstlichen Intelligenz (KI), dabei helfen, Gebärdensprache viel häufiger einzusetzen? Es gibt schließlich häufig beeindruckende Beispiele, was mit KI bereits möglich ist. Ein Fraunhofer-Institut arbeitet auch daran. Und Schmolz berichtet von Videos mit Gebärdensprache, die mit KI-Hilfe entstanden sind: "Das sind Bahn-Ansagen zu Zugverbindungen oder Wetterbericht." Dabei ist das Vokabular mit 50 oder 100 Begriffen sehr stark begrenzt. "Das kann man der KI relativ leicht beibringen", sagt Schmolz.

Und auch bei der Audiodeskription, bei Hörbeschreibungen von Filmen, gibt es im MDR eine synthetische Stimme. Wenn all das bereits geht: Warum also nicht einfach eine künstliche Figur, einen Avatar, die Gebärdensprache übernehmen lassen?

Für den KI-Einsatz in der Gebärdensprache gibt es sprachliche und technische Herausforderungen, sagt Schmolz: "Gebärdensprache funktioniert nicht nur über Hände. Auch das Mundbild, Mimik und Körperhaltung sind wichtig." All das müsse einer KI erst beigebracht werden. Zwar gebe es bereits Filmmaterial mit Gebärdensprache und damit viele Trainingsdaten. Für die Analyse braucht man allerdings enorme Rechenkapazitäten, sagen Experten.

Gebärdensprache und KI: alles andere als einfach

Und damit ein solches KI-Training überhaupt funktioniert, muss die Gebärdensprache erst in Text umgewandelt werden. Das kostet Zeit, sagt Schmolz und nennt noch einen Knackpunkt: "Es ist wirklich schwierig, einen hochemotionalen Liebesfilm von einer unemotionalen KI in Gebärdensprache übersetzen zu lassen."

KI-Nachrichtensprecherin im südkoreanischen Fernsehen Ein Straßenfernseher in Seoul zeigt einen Avatar der MBN-Moderatorin Kim Joo Ha, die mithilfe künstlicher Intelligenz Nachrichten liest
Der Avatar der südkoreanischen Nachrichtensprecherin auf dem Sender MBN, Kim Joo Ha. Er ist 2020 mithilfe künstlicher Intelligenz entstanden. Bildrechte: imago images/Kyodo News

Ein weiteres Problem entsteht in der Grafik. "Die Kunstfigur, dieser Avatar funktioniert nicht so einfach. Da geht schon einmal der rechte Arm durch den Linken." So wird Gebärdensprache möglicherweise nicht korrekt übersetzt. "Deshalb muss ein Gebärdensprach-Dolmetscher immer noch einmal drüber gucken", sagt Schmolz. Und das geht nur bei vorproduzierten Filmen und nicht bei Live-Übertragungen.

Schmolz Fazit also: "Gebärdensprache mit künstlicher Intelligenz für das Fernsehen ist aktuell keine Lösung." Vor allem nicht bei Live-Übertragungen. Außerdem müssen gehörlose Menschen eine solcher KI auch akzeptieren und vertrauen. Schmolz sagt: "Es gibt Widerstände auch bei gehörlosen Menschen, die sagen, sie wüssten nicht, ob eine KI korrekt übersetzt." Manche Gehörlose würden auch befürchten, dass Kunstfiguren und Avatare die Gebärdensprache ins Lächerliche ziehen könnten.

Warum es auch mit Untertiteln nicht so einfach ist

Bei der Gebärdensprache für Fernsehen oder Video sind KI-Methoden bislang keine große Hilfe. Also einfach mehr Untertitel anbieten? Selbst in Youtube-Videos oder Videokonferenz gibt es mittlerweile Werkzeuge, die Live-Untertitel erzeugen. Und auch die ARD entwickelt zusammen mit einem Fraunhofer-Institut ein entsprechendes Werkzeug, sagt Schmolz.

Aber auch für mehr Untertitel in Live-Fernseh-Übertragungen im Internet muss noch eine Hürde genommen werden. "Verkürzt gesagt, fehlt da die Austast-Lücke des Videotexts, über die ja beim Fernsehen die Untertitel übertragen werden", sagt Schmolz. Deshalb gibt es bislang keine technische Möglichkeit, Live-Streams zu untertiteln.

Noch eine Hürde sind die verschiedenen Empfangsgeräte und Betriebssysteme der Nutzerinnen und Nutzer. "iOS-basierte Geräte können die Untertitel aus dem Fernsehen zum Beispiel leichter abbilden als Android-Systeme", sagt Schmolz. Diese Probleme seien allerdings bald behoben: "Wir werden in absehbarer Zeit diese Live-Streams mit Live-Untertiteln anbieten, automatisiert mit KI-Hilfe." Denn allein der MDR streamt jährlich bis zu 700 Events auf seinen Seiten: Fußballspiele, Pressekonferenzen oder Kulturveranstaltungen.

Untertitel ersetzen allerdings kaum die Gebärdensprache: Für Gehörlose sind sie nur eine Ergänzung. Denn ihre Muttersprache ist die Gebärdensprache – sie ist natürlicher und leichter verständlich als eine mitunter komplizierte Schriftsprache.

Mehr zum Thema: Digitalisierung in Sachsen-Anhalt

MDR (Marcel Roth)

404 Not Found

Not Found

The requested URL /api/v1/talk/includes/html/d64f7a5d-7dc2-4e43-b0e3-a83292bc03c8 was not found on this server.

Mehr aus Sachsen-Anhalt