Wir haben Aufzeichnungen von spanischen Online-Meetings erhalten, die wir gerne von unserer Videoagentur schneiden lassen wĂŒrden. Leider sprechen weder unser Videoeditor noch mein Team und ich Spanisch. Könntet ihr uns die Inhalte auf Englisch ĂŒbersetzen, damit die Videoagentur die Schnittmarken setzen kann?
Diese Anfrage erreichte uns vor einer Weile von einem unserer Kunden. Unsere Antwort: âJa, das machen wir gerne!â
So leicht, wie die Antwort klingt, ist es in der RealitĂ€t jedoch nicht. Bevor man die Inhalte von Videos oder Audiodateien ĂŒbersetzen kann, muss man das Gesagte erst einmal in geschriebenen Text umwandeln. In der Fachsprache wird diese Verschriftlichung auch (Video-)Transkription genannt. Das verschriftlichte gesprochene Wort oder besser gesagt das Dokument, das dabei entsteht, ist das Transkript.
Die berechtigte Frage, die sich in dem Zusammenhang stellt:
Wie komme ich an das Transkript?
Um an das Transkript zu gelangen, also das Video in Text-Form zu bringen, gibt es zwei Wege.
Beide fĂŒhren ans Ziel und sind in der Branche ĂŒblich, um mit Videoinhalten arbeiten zu können.
1. Der humane Weg
Der klassische Weg, um ein Transkript zu erstellen, ist nach wie vor, sich das Gesagte anzuhören und den Text parallel mitzuschreiben bzw. mitzutippen. Wobei parallel im Falle der Transkription leider eher Wunschdenken ist.
Dauert eine Aufnahme beispielsweise 20 Minuten, kann es unter UmstĂ€nden 2â2,5 Stunden dauern, bis diese transkribiert ist. Das hört sich zunĂ€chst lang an, ist aber in der Praxis völlig normal.
Stellen Sie sich vor, Sie mĂŒssten ein GesprĂ€ch Wort fĂŒr Wort schriftlich festhalten, das Sie mit Ihren Kolleginnen und Kollegen gefĂŒhrt haben. Vermutlich werden Sie feststellen, dass jemand seinen Satz nicht beendet oder ihn dreimal begonnen hat, man sich gegenseitig ins Wort gefallen ist und man öfter hinhören muss, um zu verstehen, was genau gesagt wurde.
Oder Dialektwörter, FĂŒllwörter wie âehmâ und âĂ€hâ sowie grammatikalisch falsche Konstruktionen verwendet wurden.
Soll das Transkript als Basis fĂŒr einen Artikel oder Untertitel dienen, lohnt es sich daher, das Transkript um die beschriebenen PhĂ€nomene der gesprochenen Sprache zu bereinigen.
2. Der maschinelle Weg
Wenig ĂŒberraschend hat die Verwendung von kĂŒnstlicher Intelligenz (KI) auch vor der Audio-Video-Branche nicht Halt gemacht. Besonders bei der Transkription kommt KI-basierte Transkriptionssoftware zum Einsatz und kann â richtig eingesetzt â Zeit und Kosten sparen.
Wie bei allen Einsatzbereichen von KI gilt allerdings auch hier das Gebot der Vorsicht. Ein maschinell erstelltes Transkript einer Video- oder Audiodatei kann eine gute Arbeitsgrundlage darstellen.
Aber: Die Maschine kann im Gegensatz zum Menschen nicht denken. Das fĂ€llt bei Transkripten besonders bei Eigennamen oder undeutlich gesprochenen Passagen auf, die zu amĂŒsanten AusdrĂŒcken wie âDevilâs Inventorâ anstelle von âWinter in Davosâ fĂŒhren kann.
In jedem Fall empfiehlt es sich, nach der maschinellen Transkription einen humanen Check einzuplanen, um die Fehler der Maschine und die oben erwÀhnten PhÀnomene der gesprochenen Sprache zu korrigieren.
Vorsicht ist allerdings nicht nur bei der QualitÀt des maschinell erstellten Transkripts, sondern auch beim Datenschutz geboten.
Besonders bei vertraulichen Inhalten, die nur fĂŒr ein bestimmtes Zielpublikum gedacht sind, sollte man sich vorab genau informieren, wie und wo die Verarbeitung und ggf. Speicherung der Daten erfolgt. Da sich die meisten (kostenlosen) Tools aus öffentlichen, ungesicherten Clouds speisen, sind sie hĂ€ufig nicht DSGVO-konform und dementsprechend nicht fĂŒr vertrauliche Inhalte wie CEO-Botschaften an die Mitarbeitenden geeignet.
Mensch oder Maschine: Welcher Weg ist der richtige fĂŒr die Video-Transkription?
Ob man lieber links oder rechts abbiegen sollte, entscheiden letzten Endes die QualitĂ€t der Aufnahme und der Zweck des Transkripts. Befinden sich in einem Video beispielsweise mehrere Personen in einer dynamischen GesprĂ€chssituation und sprechen im Dialekt oder mit Akzent, ist der humane Weg sehr wahrscheinlich der schnellere, da die Bereinigung des maschinellen Outputs im Anschluss viel Zeit in Anspruch nehmen wĂŒrde.
Die Kombination aus Maschine und humaner Nachbearbeitung fĂŒhrt hingegen schnell ans Ziel, wenn Inhalte mittels Teleprompter eingesprochen wurden oder die Personen im Video deutlich sprechen â im Idealfall sogar in ihrer Muttersprache.
Um zu unserer Anfrage mit den spanischen Online-Meetings zurĂŒckzukommen: In dem Fall haben wir in Absprache mit dem Kunden den Weg der maschinellen Transkription mit humaner Nachbearbeitung gewĂ€hlt, da das Transkript nur als Vorlage fĂŒr die (maschinelle) englische Ăbersetzung genutzt wurde und keinen weiteren Verwendungszweck (z. B. Vorlage fĂŒr einen Blog) hatte.
Per se gibt es bei der Transkription demnach nicht den einen richtigen Weg. Es gilt genau abzuwĂ€gen, wie gut die AufnahmequalitĂ€t ist und was mit dem Transkript hinterher geschehen soll. Gerne unterstĂŒtzt Sie unser Audio-Video-Team (audiovideo@leinhaeuser.com) dabei, den richtigen Weg fĂŒr Ihr Projekt zu finden.