Podcast "Digital leben" Künstliche Intelligenz und Medien: eine Chance für die Barrierefreiheit?
Hauptinhalt
06. Januar 2023, 08:09 Uhr
Aus gesprochenen Worten Texte machen – das können Methoden der künstlichen Intelligenz schon länger recht zuverlässig. So entstehen zum Beispiel viele Untertitel auf Videoplattformen. Lässt sich das auch nutzen, um gehörlosen Menschen Nachrichten und Filme nähe zu bringen? Lassen sich gar mit Hilfe von KI-Methoden Avatare erschaffen, die Gebärdensprache beherrschen und so automatisiert Filme oder Nachrichten zugänglicher machen? Ganz so einfach ist es nicht.
- Die meisten Webseiten, Internet-Werkzeuge und Technologien entstanden, ohne an seh- oder hörbehinderte Nutzer und Nutzerinnen zu denken. Im MDR gibt es deshalb die Redaktion Barrierefreiheit.
- Weltweit werden Werkzeuge entwickelt, die mit Methoden der künstlichen Intelligenz daran arbeiten, dass seh- oder hörbehinderte Nutzer und Nutzerinnen Medien besser nutzen können: Bildbeschreibungen, Untertitel und Gebärdendolmetschen.
- Trotzdem ist das meiste nach wie vor "Handarbeit" und so schnell lässt sich das wohl nicht ändern. Denn es gibt technische und emotionale Herausforderungen.
Die meisten Menschen, die Internet oder Fernsehen nutzen, tun das, ohne groß darüber nachzudenken. Aber die meisten Menschen, die Internet und Fernsehen entwickelt haben, gestalten und konsumieren, sind auch voreingenommen: Sie können nämlich sehen und hören. Aber was im Fernsehen zu sehen und auf Webseiten zu klicken ist, können seh- oder hörbehinderte Menschen nur eingeschränkt wahrnehmen.
Für sie will Georg Schmolz Medieninhalte zugänglicher machen. Er ist beim MDR für Barrierefreiheit zuständig. "Wir machen das Visuelle und das Akustische für Menschen mit Hör- oder Sehbehinderungen zugänglich", sagt Schmolz. Seine Abteilung verantwortet Audiodeskription, Untertitel oder Gebärdensprache für Filmen oder Serien.
Bei der Audiodeskription für Sehbehinderte beschreibt eine Stimme das wichtigste, was auf dem Bildschirm passiert und zu sehen ist. Untertitel und Gebärdensprache geben für Hörbehinderte das Gesagte wieder: als Text oder als Gebärde. "Außerdem haben wir auch Angebote für kognitiv eingeschränkte Menschen. Da geht es um leichte Sprache, um verständlichere Formulierungen", sagt Schmolz.
Gebärdensprache würde der MDR viel häufiger anbieten, sagt Schmolz. Aber: "Es gibt in Deutschland nur 800 Gebärdendolmetscherinnen und -dolmetscher", sagt Schmolz im Podcast "Digital leben" bei MDR SACHSENANHALT. Noch mehr Angebote mit der knappen "Ressource" Gebärdendolmetscher in Gebärdensprache sind also kaum möglich.
Hoffnung: KI-Unterstützung für Gebärdensprache
Können digitale Technologien, Methoden der künstlichen Intelligenz (KI), dabei helfen, Gebärdensprache viel häufiger einzusetzen? Es gibt schließlich häufig beeindruckende Beispiele, was mit KI bereits möglich ist. Ein Fraunhofer-Institut arbeitet auch daran. Und Schmolz berichtet von Videos mit Gebärdensprache, die mit KI-Hilfe entstanden sind: "Das sind Bahn-Ansagen zu Zugverbindungen oder Wetterbericht." Dabei ist das Vokabular mit 50 oder 100 Begriffen sehr stark begrenzt. "Das kann man der KI relativ leicht beibringen", sagt Schmolz.
Und auch bei der Audiodeskription, bei Hörbeschreibungen von Filmen, gibt es im MDR eine synthetische Stimme. Wenn all das bereits geht: Warum also nicht einfach eine künstliche Figur, einen Avatar, die Gebärdensprache übernehmen lassen?
Für den KI-Einsatz in der Gebärdensprache gibt es sprachliche und technische Herausforderungen, sagt Schmolz: "Gebärdensprache funktioniert nicht nur über Hände. Auch das Mundbild, Mimik und Körperhaltung sind wichtig." All das müsse einer KI erst beigebracht werden. Zwar gebe es bereits Filmmaterial mit Gebärdensprache und damit viele Trainingsdaten. Für die Analyse braucht man allerdings enorme Rechenkapazitäten, sagen Experten.
Gebärdensprache und KI: alles andere als einfach
Und damit ein solches KI-Training überhaupt funktioniert, muss die Gebärdensprache erst in Text umgewandelt werden. Das kostet Zeit, sagt Schmolz und nennt noch einen Knackpunkt: "Es ist wirklich schwierig, einen hochemotionalen Liebesfilm von einer unemotionalen KI in Gebärdensprache übersetzen zu lassen."
Ein weiteres Problem entsteht in der Grafik. "Die Kunstfigur, dieser Avatar funktioniert nicht so einfach. Da geht schon einmal der rechte Arm durch den Linken." So wird Gebärdensprache möglicherweise nicht korrekt übersetzt. "Deshalb muss ein Gebärdensprach-Dolmetscher immer noch einmal drüber gucken", sagt Schmolz. Und das geht nur bei vorproduzierten Filmen und nicht bei Live-Übertragungen.
Schmolz Fazit also: "Gebärdensprache mit künstlicher Intelligenz für das Fernsehen ist aktuell keine Lösung." Vor allem nicht bei Live-Übertragungen. Außerdem müssen gehörlose Menschen eine solcher KI auch akzeptieren und vertrauen. Schmolz sagt: "Es gibt Widerstände auch bei gehörlosen Menschen, die sagen, sie wüssten nicht, ob eine KI korrekt übersetzt." Manche Gehörlose würden auch befürchten, dass Kunstfiguren und Avatare die Gebärdensprache ins Lächerliche ziehen könnten.
Warum es auch mit Untertiteln nicht so einfach ist
Bei der Gebärdensprache für Fernsehen oder Video sind KI-Methoden bislang keine große Hilfe. Also einfach mehr Untertitel anbieten? Selbst in Youtube-Videos oder Videokonferenz gibt es mittlerweile Werkzeuge, die Live-Untertitel erzeugen. Und auch die ARD entwickelt zusammen mit einem Fraunhofer-Institut ein entsprechendes Werkzeug, sagt Schmolz.
Aber auch für mehr Untertitel in Live-Fernseh-Übertragungen im Internet muss noch eine Hürde genommen werden. "Verkürzt gesagt, fehlt da die Austast-Lücke des Videotexts, über die ja beim Fernsehen die Untertitel übertragen werden", sagt Schmolz. Deshalb gibt es bislang keine technische Möglichkeit, Live-Streams zu untertiteln.
Noch eine Hürde sind die verschiedenen Empfangsgeräte und Betriebssysteme der Nutzerinnen und Nutzer. "iOS-basierte Geräte können die Untertitel aus dem Fernsehen zum Beispiel leichter abbilden als Android-Systeme", sagt Schmolz. Diese Probleme seien allerdings bald behoben: "Wir werden in absehbarer Zeit diese Live-Streams mit Live-Untertiteln anbieten, automatisiert mit KI-Hilfe." Denn allein der MDR streamt jährlich bis zu 700 Events auf seinen Seiten: Fußballspiele, Pressekonferenzen oder Kulturveranstaltungen.
Untertitel ersetzen allerdings kaum die Gebärdensprache: Für Gehörlose sind sie nur eine Ergänzung. Denn ihre Muttersprache ist die Gebärdensprache – sie ist natürlicher und leichter verständlich als eine mitunter komplizierte Schriftsprache.
MDR (Marcel Roth)
Not Found
The requested URL /api/v1/talk/includes/html/d64f7a5d-7dc2-4e43-b0e3-a83292bc03c8 was not found on this server.