Mit VALL-E menschliche Stimmen klonen

Posted 23. Januar 2023

VALL-E ist eine KI-Anwendung, die aus einer drei Sekunden langen Sprachaufnahme eine menschliche Stimme synthetisieren kann. Das System übernimmt sowohl den Klang der Stimme, die Emotion des Sprechenden als auch die akustische Umgebung der Aufnahme. So kommt es zu keinem irritierenden akustischen Bruch zwischen der realen Sprachaufnahme und der synthetischen Stimme. VALL-E ist laut einer Studie der Cornell University das modernste System für die Text-Sprache-Synthese (Text-to-Speech, TTS).

Wer in die Ergebnisse von VALL-E reinhören möchte, kann das tun unter GITHub.

Vier Hinweise zum besseren Verständnis:

Die Spalte “Speaker-Prompt” ist eine Drei-Sekunden-Original-Aufnahme eines Sprechenden, ohne dass der Inhalt relevant ist.
“Ground Truth” heißt die Spalte mit der Aufnahme des Original-Sprechenden, der den gewollten Satz vorliest.
In der Spalte “Baseline” wird der Satz von einer herkömmlichen TTS-Software (Text-Sprache-Synthese)
Und in der letzten Spalte liest die von VALL-E-generierte Stimme denselben Satz vor.

Meine Einschätzung: Die Aufnahme unter Ground Truth unterscheidet sich oft kaum von der VALL-E Version. Grundsätzlich werden Klang der Stimme und die Art und Weise der Sprechenden gut imitiert. Bei der Betonung gibt es noch die häufigsten Abweichungen. Beachtenswert finde ich auch das Einbinden der Umgebungsgeräusche unter „Acoustic Environment Maintenance“.

Gabriele Horcher: Ein Missbrauch von VALL-E ist nicht auszuschließen

Bei vielen werden bei dieser Nachricht jetzt die Alarmglocken schrillen: VALL-E kann aus einer drei Sekunden langen Sprachaufnahme eine menschliche Stimme synthetisieren!

Denken Sie auch sofort an Deep-Fake-Videos, bei denen Prominenten und Politikern Dinge in den Mund gelegt werden, die sie so niemals sagen würden? Und das soll jetzt durch VALL-E jetzt auch mit ihrer eigenen Stimme gehen? Und das obwohl ihre Stimme gar nicht omnipräsent im Internet ist.

Oder Sie stellen sich vor, wie Kriminelle, mit betrügerischen Absichten, Anrufe faken, bei denen vorgegaukelt wird, wir sprächen mit Verwandten, Freunden oder Kollegen? Unsere Stimme ist doch eines unserer wichtigsten Erkennungs- und Vertrauensmerkmale untereinander.

Darüber hinaus gibt es Software mit Stimmerkennung zum Beispiel für die Zutrittskontrolle, die man mit einer geklonten Stimme austricksen könnte.

Leider ist bei neuen Technologien ein Missbrauch nicht auszuschließen. Aber es gibt Sicherheits-Mechanismen:

So existiert für jedes Gift ein Gegengift. An dem Antidot, dass KI-generierte Stimmen erkennt, wird parallel gearbeitet.
Obwohl im Normalfall auch der Code von VALL-E – im Sinne der OpenAI-Philosophie „for the greater good“ – jedem zugänglich gemacht werden soll, ist er zurzeit nicht zugänglich.
Das System wurde bisher nur mit englischen Sprachdaten gefüttert. Und das ist mit 60.000 Stunden aus überwiegend literarischem Material geschehen. Eine deutsche Stimme für Umgangssprache lässt sich damit deshalb noch nicht erzeugen.

Gabriele Horcher: Die Vorteile von VALL-E überwiegen für mich

Für mich als Kommunikations-Wissenschaftlerin und Keynote Speaker mit dem Thema „Zukunft der Kommunikation“ ist VALL-E trotzdem eine superspannende, bahnbrechende Entwicklung. VALL-E steht definitiv auf meiner Watchlist der Kommunikations-Technologien, -Tools, -Kanäle, -Strategien und Mega-Themen, die ich mir regelmäßig – spätestens alle drei Monate wieder –ansehe, um sie auf ihre Praxistauglichkeit hin zu prüfen.

Zum einen betrachte ich VALL-E und andere KI-Anwendung durch meine Business-Brille. Ich beurteile sie nach dem Nutzen für den Einsatz in Vertrieb, Marketing, Kommunikation und Service. Und leite daraus natürlich auch mögliche Szenarien ab für die so wichtige Leadership-Kommunikation von GF-, HR- oder anderen Fachabteilungen.

Auf der anderen Seite beobachte ich die Entwicklung durch meine Humanity-Brille. Ich suche nach der Nutzbarkeit der Technologie für Menschen mit Einschränkungen. Ob die Technologie Menschen mit angeborenen, erworbenen oder altersbedingten Einschränkungen helfen kann.

Gabriele Horcher: Beeinträchtigte Menschen erhalten die eigene Stimme

Der bekannte Hollywood-Schauspieler Val Kilmer hat vor einigen Jahren seine Stimme durch den Krebs verloren. Er hat in Filmen wie Top Gun, The Doors, Heat und Batman Forever gespielt. Nach zwei Luftröhrenschnitten kann er heute kaum mehr verständlich sprechen. Für einen Schauspieler ist die Stimme in seinem Beruf ein zentrales Werkzeug. Aber auch für jeden anderen Menschen und für dessen Umfeld ist der Verlust der Stimme als Kommunikationsmittel, als Erkennungsmerkmal und als Ausdruck von Emotionen unsagbar grausam. Als „Ich“ zu sprechen, heißt, authentisch zu sein, zu zeigen, wer ich bin.

Der damals 61-jährige Val Kilmer musste sich nicht mit diesem Schicksal abfinden. Zum einen lässt er sich heute von seinem Sohn, der eine sehr ähnliche Stimme hat, bei Filmen wie zum Beispiel „Top Gun: Maverick“ oder in seinem eigenen Dokumentarfilm „Val“ synchronisieren. Darüber hinaus wandte er sich auch an KI-Unternehmen, um ein Deep-Fake von seiner Stimme erstellen zu lassen. Das Unternehmen Sonantic konnte 2020 seine synthetische Stimme mit viel Aufwand realisieren.

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Val Kilmer kann heute seine Stimme über eine Desktop-Anwendung steuern. Indem er das eintippt, was er sagen möchte. Dies ermöglicht es ihm, wieder mit seiner eigenen Stimme zu kommunizieren. Doch nicht jeder Mensch hat die finanziellen Mittel und die umfangreichen Sprachaufnahmen eines Hollywood-Stars. VALL-E ist deshalb für alle Menschen, die ihre Stimme durch Krebs, einen Schlaganfall oder Traumata verloren haben, eine großartige Chance.

Welche Bedeutung hat die Stimme für uns Menschen?

Stimme ist unser akustischer Fingerabdruck. Die Stimme gehört zu unserer Persönlichkeit. Sie spielt eine große Rolle dafür, wie wir von anderen wahrgenommen werden. Sie verrät, wie alt wir in etwa sind, welches Geschlecht wir haben und auch woher wir kommen. Aus dem Klang unserer Stimme lassen sich zudem Rückschlüsse auf unsere Verfassung ziehen.

Gabriele Horcher: Wie Kommunikatoren von Voice-KI profitieren

James Earl Jones verleiht seit 1977 dem sicherlich bekanntesten Science-Fiction-Schurken seine Stimme: Er spricht Darth Vader. Doch Jones ist mittlerweile über 90 Jahre. Für Lucasfilm ist es wichtig, seine Stimme – auch über den Tod hinaus – zu erhalten. James Earl Jones hat deshalb die Rechte an seiner Stimme an Lucasfilm bzw. an die ukrainische Software-Firma Respeecher überschrieben.

Mithilfe von künstlicher Intelligenz darf Respeecher Dialoge erschaffen, ohne dass Jones sie tatsächlich sprechen muss. Respeecher benötigt für das Klonen einer Stimme etwa zwei Stunden an Ausgangsmaterial, was im Fall von James Earl Jones aufgrund seiner langen Filmkarriere kein Problem darstellt. Und für Lucasfilm bedeutet es allerhöchste kreative Flexibilität, Darth Vader mit seiner bekannten Stimme auch in zukünftigen Star Wars Filmen und Prequels noch einsetzen zu können.

Gabriele Horcher: Sprache kommt an mehr Kontaktpunkten zum Einsatz

Die KI-Anwendung VALL-E ermöglicht das automatisierte Wiedergeben von Texten auf menschlichem Niveau! Und das, ohne die Sprecher aufwendig nachträglich bearbeiten zu müssen. Das ist ein großer Vorteil: Ohne Editierung ist bei den heute bereits verbreiteten Systemen keine Nuancierung möglich, dadurch klingen synthetische Stimmen aktuell meist noch unnatürlich. Die Bearbeitung einer synthetischen Stimme ist allerdings sehr aufwendig. So aufwendig, dass sich schon wieder der Aufwand einer realen Stimmaufnahme lohnt.

Je menschlicher eine synthetische Stimme klingt, je mehr Emotionen transportiert oder sogar bei den Zielpersonen ausgelöst werden können, desto zweckmäßiger lässt sich Voice an unterschiedlichen Kontaktpunkten einsetzen.

Gabriele Horcher: Die Stimme spricht für die Marke

Als Impulsgeberin für die Zukunft der Kommunikation kann man von mir erwarten, selbst viel auf diversen Kanälen und in unterschiedlichen Formaten zu kommunizieren – quasi als Proof-of-Concept. Um dem noch mehr gerecht zu werden, werde ich einen Video-Avatar einsetzen. Dieser Video-Avatar, den ich als meine Digitale Assistentin „Nea“ taufe, performt für mich automatisiert das, was ich schreibe. Nea trägt für mich – allerdings mit ihrer Stimme – meine Inhalte vor. So erhalte ich unkompliziert und schnell zusätzlich Video- und Audio-Formate von dem, was ich schriftlich kommuniziere, ohne mich täglich für die Kamera fein machen zu müssen. Mit diesen unterschiedlichen Formaten kann ich jetzt meine gesamte Kommunikation verstärken – ob dialogisch, auf meiner Website, auf Social Media oder in den Medien.

Im nächsten Schritt denke ich schon über einen eigenen Video-Avatar – ein digitales Double – mit meinem Konterfei und dann natürlich auch mit meiner Stimme nach. Das mag zunächst gruselig klingen. Wichtig ist es doch, dass wir Kommunikatoren schnell, relevante und zielgruppenspezifische Informationen oder Dialoge zur Verfügung stellen. Oder?

VALL-E ist eine von vielen neuen Kommunikations-Technologien, die es uns in naher Zukunft ermöglichen, im Business noch besser mit unseren spezifischen Zielgruppen zu kommunizieren und auch Menschen mit Beeinträchtigungen wieder stärker zu integrieren.

In meinen Vorträgen und Workshops suche ich genau die Kommunikations-Technologien, ‑Tools, -Strategien und Mega-Trends raus, die für Ihre Zielgruppe für Ihren Event relevant sind. Sprechen Sie mich gerne an.

Gabriele Horcher, VALL-E, Voice-KI