Wir haben Aufzeichnungen von spanischen Online-Meetings erhalten, die wir gerne von unserer Videoagentur schneiden lassen würden. Leider sprechen weder unser Videoeditor noch mein Team und ich Spanisch. Könntet ihr uns die Inhalte auf Englisch übersetzen, damit die Videoagentur die Schnittmarken setzen kann?
Diese Anfrage erreichte uns vor einer Weile von einem unserer Kunden. Unsere Antwort: „Ja, das machen wir gerne!“
So leicht, wie die Antwort klingt, ist es in der Realität jedoch nicht. Bevor man die Inhalte von Videos oder Audiodateien übersetzen kann, muss man das Gesagte erst einmal in geschriebenen Text umwandeln. In der Fachsprache wird diese Verschriftlichung auch (Video-)Transkription genannt. Das verschriftlichte gesprochene Wort oder besser gesagt das Dokument, das dabei entsteht, ist das Transkript.
Die berechtigte Frage, die sich in dem Zusammenhang stellt:
Wie komme ich an das Transkript?
Um an das Transkript zu gelangen, also das Video in Text-Form zu bringen, gibt es zwei Wege.
Beide führen ans Ziel und sind in der Branche üblich, um mit Videoinhalten arbeiten zu können.
1. Der humane Weg
Der klassische Weg, um ein Transkript zu erstellen, ist nach wie vor, sich das Gesagte anzuhören und den Text parallel mitzuschreiben bzw. mitzutippen. Wobei parallel im Falle der Transkription leider eher Wunschdenken ist.
Dauert eine Aufnahme beispielsweise 20 Minuten, kann es unter Umständen 2–2,5 Stunden dauern, bis diese transkribiert ist. Das hört sich zunächst lang an, ist aber in der Praxis völlig normal.
Stellen Sie sich vor, Sie müssten ein Gespräch Wort für Wort schriftlich festhalten, das Sie mit Ihren Kolleginnen und Kollegen geführt haben. Vermutlich werden Sie feststellen, dass jemand seinen Satz nicht beendet oder ihn dreimal begonnen hat, man sich gegenseitig ins Wort gefallen ist und man öfter hinhören muss, um zu verstehen, was genau gesagt wurde.
Oder Dialektwörter, Füllwörter wie „ehm“ und „äh“ sowie grammatikalisch falsche Konstruktionen verwendet wurden.
Soll das Transkript als Basis für einen Artikel oder Untertitel dienen, lohnt es sich daher, das Transkript um die beschriebenen Phänomene der gesprochenen Sprache zu bereinigen.
2. Der maschinelle Weg
Wenig überraschend hat die Verwendung von künstlicher Intelligenz (KI) auch vor der Audio-Video-Branche nicht Halt gemacht. Besonders bei der Transkription kommt KI-basierte Transkriptionssoftware zum Einsatz und kann – richtig eingesetzt – Zeit und Kosten sparen.
Wie bei allen Einsatzbereichen von KI gilt allerdings auch hier das Gebot der Vorsicht. Ein maschinell erstelltes Transkript einer Video- oder Audiodatei kann eine gute Arbeitsgrundlage darstellen.
Aber: Die Maschine kann im Gegensatz zum Menschen nicht denken. Das fällt bei Transkripten besonders bei Eigennamen oder undeutlich gesprochenen Passagen auf, die zu amüsanten Ausdrücken wie „Devil’s Inventor“ anstelle von „Winter in Davos“ führen kann.
In jedem Fall empfiehlt es sich, nach der maschinellen Transkription einen humanen Check einzuplanen, um die Fehler der Maschine und die oben erwähnten Phänomene der gesprochenen Sprache zu korrigieren.
Vorsicht ist allerdings nicht nur bei der Qualität des maschinell erstellten Transkripts, sondern auch beim Datenschutz geboten.
Besonders bei vertraulichen Inhalten, die nur für ein bestimmtes Zielpublikum gedacht sind, sollte man sich vorab genau informieren, wie und wo die Verarbeitung und ggf. Speicherung der Daten erfolgt. Da sich die meisten (kostenlosen) Tools aus öffentlichen, ungesicherten Clouds speisen, sind sie häufig nicht DSGVO-konform und dementsprechend nicht für vertrauliche Inhalte wie CEO-Botschaften an die Mitarbeitenden geeignet.
Mensch oder Maschine: Welcher Weg ist der richtige für die Video-Transkription?
Ob man lieber links oder rechts abbiegen sollte, entscheiden letzten Endes die Qualität der Aufnahme und der Zweck des Transkripts. Befinden sich in einem Video beispielsweise mehrere Personen in einer dynamischen Gesprächssituation und sprechen im Dialekt oder mit Akzent, ist der humane Weg sehr wahrscheinlich der schnellere, da die Bereinigung des maschinellen Outputs im Anschluss viel Zeit in Anspruch nehmen würde.
Die Kombination aus Maschine und humaner Nachbearbeitung führt hingegen schnell ans Ziel, wenn Inhalte mittels Teleprompter eingesprochen wurden oder die Personen im Video deutlich sprechen – im Idealfall sogar in ihrer Muttersprache.
Um zu unserer Anfrage mit den spanischen Online-Meetings zurückzukommen: In dem Fall haben wir in Absprache mit dem Kunden den Weg der maschinellen Transkription mit humaner Nachbearbeitung gewählt, da das Transkript nur als Vorlage für die (maschinelle) englische Übersetzung genutzt wurde und keinen weiteren Verwendungszweck (z. B. Vorlage für einen Blog) hatte.
Per se gibt es bei der Transkription demnach nicht den einen richtigen Weg. Es gilt genau abzuwägen, wie gut die Aufnahmequalität ist und was mit dem Transkript hinterher geschehen soll. Gerne unterstützt Sie unser Audio-Video-Team (audiovideo@leinhaeuser.com) dabei, den richtigen Weg für Ihr Projekt zu finden.
Redaktionsteam Leinhäuser
Sprachen sind unsere Leidenschaft. Deswegen nehmen wir regelmäßig auch aktuelle Entwicklungen und neue Tools unter die Lupe, die sich auf die Welt der Kommunikation auswirken. In verschiedenen Blogbeiträgen teilen unsere internen Expertinnen und Experten ihr Wissen und ihre Erkenntnisse zu spezifischen Bereichen unseres Portfolios und beleuchten wichtige Zukunftstrends für unsere Branche. Von kreativem Schreiben über Nachhaltigkeitsberichte bis hin zur Programmierung – jedes Mitglied unseres Teams zeichnet sich durch ein einzigartiges Profil aus und trägt so einem vielfältigen Gesamtbild bei.