Kann die KI helfen, hochwertige Inhalte in jeder Sprache zu erstellen und dabei Unternehmenssprache und Besonderheiten einhalten?
Heute führen wir ein Interview mit David Heider, dem Inhaber eines STAR-Partner-Tonstudios in Tschechien, um diese spannende Frage zu beleuchten: Kann die künstliche Intelligenz im Bereich der Video- und Audio-Produktionen effizient eingesetzt werden?
STAR: David, seit wann bietet ihr professionelle Audioproduktionen an?
Unser Tonstudio bietet seine Dienste seit 1999 an, und wir haben uns auf das gesprochene Wort spezialisiert. Wir decken zwei verschiedene Bereiche ab: erstens die „Unternehmenswelt“ mit Aufzeichnungen von Material für interne Zwecke wie E-Learnings. Dazu gehört auch die Lokalisierung von unternehmensinternen Systemen und Software. Das können entweder Schulungsmaterial oder verschiedene webbasierte Plattformen mit Sprachausgabe sein oder automatische Operatoren auf Ihrem Telefon, Navi usw. – kurz gesagt, verschiedene Anwendungen, bei denen wir den Ton häufig wortweise oder sogar Silbe für Silbe schneiden müssen und wo anschließend alles von einem System zu Sätzen und ganzen Nachrichten zusammengesetzt wird.
Der zweite Bereich bewegt sich mehr im künstlerischen Umfeld und umfasst u.a. Werbung und Werbevideos. Dieser unterscheidet sich von der erwähnten „Unternehmenswelt“ dadurch, dass es nicht nur um die Vermittlung von Inhalten geht, sondern vielmehr um eine Form, die Zuhörende ansprechen und attraktiv auf sie wirken soll. Wir brauchen hier also Profis, die sich künstlerisch ausdrücken und ihre Stimme gekonnt einsetzen können. Zusammenfassend lässt sich sagen, dass unser erster Aktionsbereich vor allem der Information dient. Hier geht es um Inhalte, wo die Nutzenden, um es etwas deutlicher zu sagen, keine große Wahl haben, da sie in der Regel zuhören müssen. Dahingegen zielen die künstlerischen Produktionen darauf ab, das „Publikum“ in irgendeiner Weise zu verführen, und zwar nicht nur inhaltlich, sondern auch formal.

STAR: Dies führt mich zwangsläufig zur nächsten Frage: Kann KI bei eurer Arbeit eingesetzt werden?
Die KI ist ein erstaunliches Werkzeug und bietet zahlreiche Vorteile. Wir brauchen uns zum Beispiel nicht mit einem Sprecher oder einer Sprecherin in Verbindung setzen und einen Termin vereinbaren; die KI ist jederzeit erreichbar.
STAR: Setzt ihr bereits KI ein?
Ja. Für die Aufbereitung und Produktion von Audio-Material setzen wir z.T. KI ein. Das Ganze hat aber auch eine Kehrseite. In den meisten Sprachen wirkt die KI -Stimme künstlich oder langweilig, vor allem nach längerem Hören.
STAR: Kann KI nicht intonieren?
Intonieren an sich ist meist nicht das Problem, aber bei der KI passiert das leider stereotyp, was wirklich ungünstig ist. Oft wird die Kernbotschaft nicht unterstrichen, die ein Mensch ja im Normalfall durch besondere Betonung ausdrückt. Und wenn man sich eine KI-Aufnahme anhört, hat man dieses sich wiederholende Klischee im Ohr, das mit der Zeit beginnt zu nerven, da man das Gefühl nicht los wird, dass es eigentlich nur „Copy-Paste“ ist. In der englischen Sprache finde ich es im Vergleich deutlich besser als in anderen Sprachen, da kann die KI mit variabler Intonation arbeiten und die Stimme sehr natürlich und lebendig wirken lassen, aber bei allen anderen Sprachen haben wir noch einen weiten Weg vor uns, bis das passiert. Aktuell klingen die anderen Sprachen noch sehr „plastisch“.
STAR: Gibt es weitere Nachteile von KI-Stimmen?
Es gibt noch einen zweiten Punkt, der meiner Meinung nach schwerwiegender ist, insbesondere beim E-Learning. Wie bei jeder KI hängt die Qualität des Ergebnisses von der Qualität des Inputs ab. Auch bei der Stimme muss man immer den Inhalt richtig vorbereiten. Vielleicht liest die KI nicht alle Abkürzungen richtig, wie sie in einer bestimmten Unternehmenskultur gelesen werden. Jedes Unternehmen hat einen bestimmten Firmenjargon, und die KI wird dies nicht berücksichtigen. Dies gilt auch für unterschiedliche Produktnamen, Ortsnamen oder Fremdwörter. Wenn im Englischen zum Beispiel französische Namen auftauchen, stellt sich die Frage, ob sie auf Französisch oder Englisch gelesen werden.
STAR: Wie lässt sich das erklären?
Nur die Mitarbeitenden eines Unternehmens sind mit der Unternehmenssprache wirklich vertraut und wissen, weshalb manchmal aus unternehmensinternen oder Marketing-Gründen von einer Sprachregel abgewichen wird. Die Hörenden sind Insider, d. h. sie wissen in der Regel Bescheid. Und die Unternehmen müssen konsequent sein, denn sonst klingt es in ihren Ohren fremd. Manchmal kann ein Begriff oder eine Abkürzung natürlich falsch verstanden werden, entweder phonetisch oder in Bezug auf den Namen, aber das ist einfach die Art und Weise, wie es in dem Unternehmen gemacht wird, und wir sollten es respektieren.
STAR: Welche weiteren Herausforderungen gibt es?
Abkürzungen und andere Besonderheiten sind eine große Herausforderung für die KI. Sie erfordern meistens viele Anpassungen und Korrekturen, was dazu führen kann, dass der Endpreis ähnlich hoch ist wie bei einem klassischen Voice-Over. Wir müssen einen Aussprachehinweis erstellen oder den Text so bearbeiten, dass er für die KI gut lesbar ist. Dies ist sehr zeitaufwendig, daher ist KI für ein einmaliges Projekt wenig sinnvoll. Darüber hinaus führen wir nach der KI zusätzlich ein Proof-Listening durch, d. h. ein Check-Listening.
STAR: Macht ihr bei menschlichen Sprecher*innen kein Proof-Listening?
Wenn wir bei der Aufnahme zusätzlich zum Sprecher oder zur Sprecherin zu zweit sind, machen wir das nicht mehr, weil wir während dieser Aufnahme alles hören und prüfen können. Die Ausnahme bilden Sprachen, die wir nicht verstehen, wie z. B. asiatische Sprachen. Aber im Falle der KI wissen wir nicht im Voraus, was sie weiß und lesen kann. Ich gebe Ihnen ein Beispiel: Nehmen Sie die Einheit „Megapascal“, abgekürzt mit „MPa“. Die KI kann sie als „em-pee-ah“ lesen, was für eine*n Techniker*in völliger Unsinn ist. Wir müssen also herausfinden, wie wir sie dazu bringen können, es richtig als „Megapascal“ zu lesen.
Manchmal kommt es vor, dass wir die Aufnahme durchgehen, sie uns richtig erscheint, aber dann findet der Kunde etwas, das nicht zu seiner Unternehmenskultur passt. Deshalb denke ich, dass KI zwar in bestimmten informativen Texten ein nützliches Werkzeug ist, das die Arbeit schneller und billiger machen kann, und ich empfehle es gerne, aber in den Händen eines unerfahrenen Benutzenden kann sich die KI sich unvorhersehbar verhalten, und das Endprodukt wird mehr Enttäuschung als Begeisterung über die eingesparten Ressourcen hervorrufen.
STAR: Gibt es einen finanziellen Unterschied?
Ja, durch den Einsatz von KI sinkt das Budget auf etwa die Hälfte oder zwei Drittel, da die Arbeit hauptsächlich von einer Maschine erledigt wird und keine Sprechprofis in den Prozess eingebunden sind.
STAR: Wie geht ihr vor, wenn eine Aufnahme nicht für KI geeignet ist?
Wir sind der Garant für Qualität, und wenn wir ernsthafte und berechtigte Zweifel daran haben, dass KI zum richtigen Ergebnis führt, informieren wir den Kunden. Kunden möchten aber auch persönliche Erfahrungen machen. Ich versuche dann zunächst, darauf hinzuweisen, nach dem Motto: „Seien Sie nicht enttäuscht, aber ich denke, dass KI für dieses spezielle Projekt nicht geeignet ist.“ Wenn ich das Gefühl habe, dass ich alles beschrieben habe, überlasse ich ihnen die Entscheidung. Aber in manchen Fällen ist sich der Kunde selbst unsicher und nimmt unsere Unterstützung dankbar an.
STAR: Vielen Dank, David, für diese äußerst interessante Diskussion über KI bei Audioaufnahmen.

KI-Stimmen sind noch nicht perfekt, und die menschlichen Stimmen gewinnen immer noch das Rennen. Sie sind in der Lage, Gefühle zu vermitteln und einen starken Eindruck zu hinterlassen. KI-Stimmen sind allerdings eine günstige Alternative. Lassen Sie sich gerne von uns beraten.
David Heider,
Inhaber eines STAR-Partner-Tonstudios in Tschechien