Bei diesem Text handelt es sich wieder um eine Übersetzung eines Originaltextes aus dem englischen von der Webseite WebAIM. Dabei wird das Problem der Auslieferung von Untertiteln in Echtzeit bei Rich Media angesprochen, welches auch hier einige Musiker interessieren könnte.

Das Echtzeit-Dilemma

Multimedia im Internet wurde immer mehr benutzt um Inhalt in Echtzeit und live zu übermitteln – von Video-Konferenzen, über VoIP (Voice-over-Internet Protocol), zu live Video-Streaming. Barrierefreiheitsstandarts erfordern, dass gleichwertige Alternativen für audio- und visuellen Inhalt geboten werden. Für Echtzeit-Web-Multimedia bedeutet dies, dass visueller Inhalt auch in Hör-Form und Audio-Inhalt auch in visueller Form präsentiert werden muss. Das entspechende Gegenstück muss dann auch mit der Präsentation synchronisiert werden, sodass der Endnutzer den Inhalt zur selben Zeit bekommt, wie der normale Nutzer. (z.B., Untertitel in Audio-Dateien müssen zur selben Zeit angezeigt werden, wenn man es im Audio hört.)

Audio Beschreibung

Die Alternative zum visuellen Inhalt in den standart-Webmedien ist oft die Audio-Beschreibung, bei der visueller Inhalt, der nicht im Audio-Stream vertreten ist, von einem Erzähler oder einer anderen Person beschrieben wird. Audio-Beschreibungen sind sehr schwer in Echtzeit-Web-Sendungen zu integrieren. Als eine Alternative kannst du dafür sorgen, dass jeder visuelle Inhalt bereits im Audio-Stream beschrieben wird. Wenn zum Beispiel eine Person im Video spricht, dann kann diese auch gleich zusätzlichen visuellen Inhalt
beschreiben, welcher im Film gezeigt wird, was die Notwendigkeit einer zweiten Audio-Beschreibung entfernen würde. Dies ist der einzige mögliche Weg, um Live-Sendungen, die visuellen Inhalt enthalten, für Personen, die blind sind oder schlecht sehen können, zugänglich zu machen. Wenn die, die am Video und an der Sendung beteiligt sind diese Beschreibungen bewusst liefern, dann wird die Multimedia barrierefrei sein.

Untertitel

Die Alternative zu Audio-Inhalt bei Standart-Webmedien sind in der Regel Untertitel. Untertitel bieten einen gleichwertigen Inhalt in Form von Text für Audio-Inhalt. Die Schwierigkeiten bei der Erstellung von Echtzeit-Text sind:

  1. Audio-Informationen müssen zu Text in Echtzeit konvertiert werden.
  2. Untertitel müssen zum Endnutzer gebracht werden, sodass diese mit den Audio-Informationen synchronisiert sind.

Bei beiden genannten Problemen kommt es zu großen Schwierigkeiten, wenn man live- und echtzeit-Multimedia verwendet.

Erstellung von Echtzeit-Text

Die Konvertierung von Audio-Informationen zu Text in Echtzeit ist schwierig.  Leider können nur wenige Schreibkräfte schnell genug schreiben, um gesprochene Wörter mitzutippen. Deswegen gibt es zwei primäre Technoligen, um dies zu tun.

Stenografie/Echtzeit-Abschrift


Steno Maschine

Stenografie beinhaltet einen trainierten Stenografen, der ein spezielles Schreibmaschinen-ähnliches Gerät benutzt, welches auch als Steno-Maschine bezeichnet wird, um das gesprochene Wort zu einem Textformat in Echtzeit zu verarbeiten. Die Steno-Maschine hat weniger Tasten (in der Regel 22) als eine Tastatur. Ein Stenograf tippt nicht jeden Buchstaben einzeln, sondern er gibt Tastenfolgen auf der Steno-Maschine ein, die fonetische Teile der Wörter oder Phrasen wiedergeben. Eine bestimmte Software analysiert dann die fonetische Information und formt darauf Wörter. So eine Technologie ermöglichst es einem trainierten Transkiptionisten Textversionen der hörbaren Konversationen in Echtzeit zu erstellen.

Stenografie ermöglicht es hörbare Informationen in Echtzeit zu Text zu konvertieren. (gut, vielleicht auch eine Sekunde oder so, nachdem es gesprochen wird). Während die Genauigkeit von Steno Software hoch ist, kommt es dennoch oft vor, dass die Wörter falsch getippt oder von der Software interpretiert werden. Außerdem kann Echtzeit-Transkription mit 70 bis 120 US-Dollar pro Stunde sehr teuer werden.

Spracherkennung

Obwohl die Spracherkennung große Möglichkeiten für die Erstellung von Echtzeit-Untertiteln ermöglicht, ist die Technologie momentan noch nicht auf dem Stand, um dies zu bewältigen. In manchen Fällen, wie zum Beispiel wenn eine Person spricht und dabei eine gut trainnierte Spracherkennungssoftware benutzt, dann kann diese Software eine sinnvolle Option sein.  Dennoch gibt es auch in
solchen Fällen Schwächen wie zum Beispiel fehlende Satzzeichen und die schlechte Präzision.

Während die Technologie der Spracherkennung verbessert wird und für die Zukunft eine Spracherkennung mit Multi-Nutzern, hoher Präzision und ohne abhängigkeit vom Nutzer zu erwarten ist, ist die Machbarkeit der Erzeugung von Text für das Benutzen in Untertiteln aktuell auf ein Paar wenige Situationen beschränkt.

Delivery of Real-time Captions

Sobald der gleichwertige Text zum Audio erstellt wurde, muss dieser zu dem Endnutzer gebracht und mit dem Audio-Stream synchronisiert werden. Leider haben nur wenige Echtzeit-Multimedia Technologien die Unterstützung von Untertiteln. Aktuell unterstützt nur RealPlayer das Übertragen von Echtzeit-Untertiteln und das ist nur mit Hilfe von komplizierten Programmier-Prozessen möglich. Deswegen müssen Echtzeit-Untertitel in der Regel über eine andere Technologie, die  parallel zu der Multimedia-Software geschaltet wird, übertragen werden. Das wird oft über externe Applikationen oder über Klienten gemacht, die in eine Webpage eingebaut sind oder über Webbrowser laufen.

Bei Videokonferenzen und Sprach-Charts, wo das Gesprochene in Echtzeit (oder nahe an der Echtzeit) übertragen wird, müssen die Unterteil erstellt, in ein Format für die Übersendung über das Internet konvertiert und zum Endnutzer übertragen werden – alles in Echtzeit. Bei Video-Streaming, wie zum Beispiel über den Windows Media Server, gibt es oft eine Verzögerung zwischen dem Zeitpunkt, bei dem die Medien aufgenommen und dem Endnutzer präsentiert werden. In diesen Fällen muss der Mechanismus des Versendens der Echtzeit-Untertitel die Funktionalität unterstützen, dass man sicherstellen kann, dass die Untertitel zur selben Zeit angezeigt werden, wenn das Gesagte angehört wird, selbst wenn die Verzögerung zwischen der Untertitel-Erstellung und der Ankunft eine lange Zeit einnimmt. (über 12 Sekunden sind eine typische Verzögerungszeit bei Windows Media Server).

Fazit

Auch wenn die Untertitelung von Web-Multimedia in Echtzeit nicht immer einfach ist, ist sie möglich und sollte immer angewendet werden, wenn Echtzeit-Multimedia geliefert wird. Glücklicherweise werden die Technologien soweit gefördert, dass Echtzeit- ntertitelung einfach und finanziell möglich sein wird.

Die Technologien, die benutzt werden, um Echtzeit-Untertitel im Internet anzubieten sind nicht nur darauf begrenzt diese Untertitel als Alternative zum Web-basierten Multimedia-Inhalt anzubieten. Solche Untertitel-Systeme können auch genutzt werden, um Untertitel in Technologien zu verwenden, die nicht auf dem Web basieren, wie zum Beispiel Radio, TV, Video-Konferenzen usw. Dies wird für mehr Barrierefreiheit in allen Formen von live- und Echtzeit-Multimedia sorgen.