Sie haben wahrscheinlich schon von Deepfakes für Bilder und Videos gehört. Diese unheimlich realistischen Videos, die mit KI erstellt wurden? Nun scheint es, dass Meta (früher bekannt als Facebook) ein neues KI-Modell namens Voicebox entwickelt hat, bei dem es um Audio geht. Es ist wie ein leistungsstarkes Text-to-Speech-System, das aus nur einer Textaufforderung synthetische Stimmen erzeugen kann.
KLICKEN SIE, UM KURTS KOSTENLOSEN CYBERGUY-NEWSLETTER MIT SICHERHEITSWARNUNGEN, SCHNELLTIPPS, TECHNOLOGIEN UND EINFACHEN ANLEITUNGEN ZU ERHALTEN, DIE SIE SMARTER MACHEN
Was ist Voicebox?
Im Kern handelt es sich bei Voicebox um ein KI-Modell, das auf der Grundlage einfacher Textansagen synthetische Stimmen erzeugt. Mit anderen Worten: Sie geben ihm einen Text und er liest ihn mit einer Stimme vor, die menschlich klingt. Es ähnelt der Text-zu-Sprache-Funktion, die Sie möglicherweise auf Ihrem Telefon oder Computer verwenden, bringt die Dinge jedoch auf eine ganz neue Ebene.
Eine Sache, die Voicebox auszeichnet, ist die Fähigkeit, bestimmte Sprachstile basierend auf einem sehr kurzen Audiobeispiel zu reproduzieren – wir reden hier von nur zwei Sekunden! Das bedeutet, dass Sie möglicherweise eine synthetische Stimme haben könnten, die wie Ihr Lieblingsstar oder sogar wie Ihre eigene Stimme klingt. Es ist fast so, als hätte man einen Synchronsprecher auf Abruf, der bereit ist, alles vorzulesen, was man möchte, und zwar in dem von Ihnen gewählten Sprachstil.
Konkurrierende KI-Sprachmodelle
Sprechen
Speechify und ElevenLabs sind ebenfalls Akteure im Text-to-Speech-Spiel. Speechify ist eine App, die jeden Text in Audio umwandelt. Es kann Bücher, Artikel, Notizen, E-Mails, PDFs, Bilder und Webseiten laut vorlesen. Speechify behauptet außerdem, Funktionen zum Klonen, Bearbeiten und Sampling von Stimmen anzubieten. Speechify bietet Hunderte kostenloser zeitloser Hörbücher, verfügt über eine Desktop-App und ist darauf ausgelegt, Menschen mit Lesebehinderungen zu helfen.

Das Meta-Logo auf einem Telefon (Costfoto/NurPhoto über Getty Images)
MARK ZUCKERBERGs „TWITTER-KILLER“-THREAD erzürnt Nutzer wegen Massendatenerfassung: „NAHE NULL DATENSCHUTZ.“
ElfLabs
ElevenLabs hingegen ist ein Startup, das mithilfe von KI synthetische Stimmen mit kontextrelevanten Emotionen und natürlichem Sprachverständnis generiert. Sie bieten eine Plattform zum Erstellen und Anpassen hochwertiger gesprochener Audiodaten in jeder Stimme und jedem Stil für verschiedene Branchen wie Videospiele, Animationen, digitale Assistenten, Bildung, Unterhaltung, Werbung und Podcasting. Sie verfügen außerdem über ein Tool zur Erkennung synthetischer Stimmen und zur Überprüfung ihrer Authentizität. ElevenLabs arbeitet mit Schauspielern zusammen, die ihre Stimmproben zur Verfügung stellen und für die Verwendung ihrer Stimmklone bezahlt werden. Sie verwenden proprietäre Deep-Learning-Modelle, um ihre KI-gestützten Reden zu erstellen.
Sie sind beide ziemlich cool, aber sie haben nicht ganz die Vielseitigkeit wie Voicebox, die echte Stimmen aus nur wenigen Sekunden Audio nachahmen kann. Es ist, als würde man ein Schweizer Taschenmesser mit ein paar wirklich guten Löffeln vergleichen. Sie alle haben ihre Verwendungsmöglichkeiten, aber eines ist definitiv vielseitiger.
Die Kraft von Voicebox
Aber es geht nicht nur darum, falsche Stimmen zu erzeugen. Voicebox kann Ihren Ton auch aufräumen, indem es lästige Hintergrundgeräusche entfernt – zum Beispiel einen Hund, der während der Aufnahme kläfft. Und es geht nicht nur um Englisch. Diese KI spricht auch Französisch, Spanisch, Deutsch, Polnisch und Portugiesisch und kann sogar Passagen von einer Sprache in eine andere übersetzen und dabei den gleichen Stimmstil beibehalten.
BEWEGEN SIE SICH, SIRI: APPLES NEUES HÖRBUCH KI-STIMME KLINGT WIE EIN MENSCH

Das Logo von Meta (ehemals Facebook) markiert am 9. November 2022 den Eingang ihrer Unternehmenszentrale in Menlo Park, Kalifornien. – Facebook-Eigentümer Meta wird mehr als 11.000 seiner Mitarbeiter entlassen, „im Zuge der „schwierigsten Veränderungen, die wir bei Meta vorgenommen haben“. Geschichte“, sagte Chef Mark Zuckerberg am Mittwoch. (JOSH EDELSON/AFP über Getty Images)
Metas Voicebox: ein Durchbruch oder eine Bedrohung?
Leider oder glücklicherweise plant Meta nicht, Voicebox sofort als Open-Source-Lösung zu veröffentlichen, je nachdem, wo Sie in Bezug auf KI stehen. Das bringt die Leute dazu, sich zu fragen, ob sie versuchen, potenzielle Probleme zu vermeiden. KI-Sprachtechnologie kann beispielsweise negativ genutzt werden, beispielsweise in Belästigungskampagnen. Oder es könnte sein, dass Meta in Zukunft Pläne hat, mit diesem Modell etwas Geld zu verdienen.
Die Quelle der umfangreichen Trainingsdaten von Voicebox
Eine interessante Sache an Voicebox ist, dass es auf einer Menge Daten trainiert wurde – über 60.000 Stunden Sprache aus englischen Hörbüchern und weitere 50.000 Stunden aus mehrsprachigen Hörbüchern. Laut Meta verwendeten sie als Hauptdatenquelle gemeinfreie Hörbücher, nutzten aber auch andere Quellen wie Podcasts, Reden und Radiosendungen. Allerdings sind mit der Verwendung öffentlich zugänglicher Hörbücher einige Herausforderungen und Einschränkungen verbunden, beispielsweise hinsichtlich Qualität, Konsistenz, Ausrichtung und Sprecheridentität. Meta gibt an, einige dieser Probleme mit der Datenverarbeitung und dem Modelldesign angegangen zu sein.
FÜR MEHR VON MEINEM SICHERHEITSWARNUNGEN, ABONNIEREN SIE MEINEN KOSTENLOSEN CYBERGUY REPORT-NEWSLETTER, indem Sie auf klicken CYBERGUY.COM/NEWSLETTER
Das zweischneidige Schwert der Technologie
Die Obama AG reißt einen „dummen“ Gerichtsbeschluss auf, nachdem der Richter die Kommunikation des Biden-Administrators mit Social-Media-Unternehmen blockiert hat
Der Aufstieg von KI-Stimmen ist ein heikles Thema, insbesondere für Synchronsprecher und neuerdings auch für Autoren. Sie befürchten, dass Unternehmen KI nutzen, um ihre Stimmen zu synthetisieren, ohne sie dafür zu bezahlen. Der Hörbuchmarkt ist stark gewachsen und Unternehmen sind immer auf der Suche nach Kostensenkungen, sodass dies für Sprachprofis zu einem weiteren Problem werden könnte.
Aber täuschen Sie sich nicht; Es geht nicht nur um Arbeitsplätze. Es gibt einige echte Bedenken darüber, wie Deep-Fake-Stimmen bei Betrügereien verwendet werden können. Beispielsweise gab es einen Fall, in dem bei einem großen Raubüberfall eine synthetische Stimme eingesetzt wurde, die sich als CEO ausgab. Es besteht auch die Sorge, dass Deepfake-Stimmen dazu verwendet werden könnten, Dinge wie stimmbiometrische Systeme zu manipulieren, die beispielsweise für Online-Banking verwendet werden.
Sie sehen, so cool diese Technologie auch klingt, sie hat eine dunklere Seite. Stellen Sie sich vor, Ihr Chef ruft Sie an und bittet Sie, einen riesigen Geldbetrag zu überweisen, um ein Konto aufzulösen. Sie tun, was Ihnen gesagt wird, denn es ist Ihr Chef. Aber das war es nicht. Das ist richtig; Es war eine gefälschte, synthetische Stimme, die mithilfe von KI erstellt wurde und genau wie Ihr Chef klang. Wild, nicht wahr? Aber das ist keine Filmhandlung; es ist tatsächlich passiert! Dies war eines der ersten Mal, dass bei einem Raubüberfall eine falsche Stimme verwendet wurde, und dies löste bei Strafverfolgungsbehörden und KI-Experten Kopfzerbrechen aus.

Condo war optimistisch, was die Zukunft der künstlichen Intelligenz angeht. (Jakub Porzycki/NurPhoto über Getty Images)
DALLE-2 VS. BING CREATOR – WER STEHT IN DIESEM KI-SHOWDOWN AN?
Und es sind nicht nur Raubüberfälle. Deepfake-Stimmen können verwendet werden, um Systeme auszutricksen, die auf Spracherkennung basieren. Die Rede ist von Dingen wie Online-Banking, bei denen Ihre Stimme als Identifikationsmerkmal genutzt wird. Wenn es Kriminellen gelingt, eine überzeugende Fake-Stimme von Ihnen zu erzeugen, könnten sie möglicherweise auf Ihre Konten zugreifen. Es ist ein bisschen so, als würde man eine Unterschrift fälschen, aber stattdessen mit der eigenen Stimme.
Der Deepfake-Bedrohung entgegenwirken
Während wir über die erstaunlichen Möglichkeiten der Technologie staunen, ist es auch wichtig, sich der potenziellen Risiken bewusst zu sein und immer einen Schritt voraus zu sein. Es ist wie ein High-Tech-Katz- und Mausspiel, bei dem KI-Experten und Unternehmen hart daran arbeiten, diese Fake-Stimmen zu erkennen und zu stoppen, bevor sie Schaden anrichten können.
Glücklicherweise gibt es Leute da draußen, die versuchen, sich gegen den möglichen Missbrauch von Deepfake-Stimmen zu wehren. Einige Länder haben beispielsweise damit begonnen, Gesetze zur Regulierung von Deepfakes zu erlassen. Außerdem gibt es Projekte wie die Automatic Speaker Verification Spoofing and Countermeasures Challenge (ASVspoof), bei denen Wissenschaftler und Ingenieure an Möglichkeiten arbeiten, Deepfake-Voice-Angriffen entgegenzuwirken
Kurts wichtigste Erkenntnisse
Wir leben in einer Zeit, in der sich die Technologie rasant weiterentwickelt und die Art und Weise verändert, wie wir arbeiten, kommunizieren und sogar Dinge hören. Während das Potenzial von KI wie Metas Voicebox zweifellos aufregend ist, ist es klar, dass wir auch vorsichtig vorgehen müssen. Es gibt einen schmalen Grat zwischen Innovation und Invasion, ein Gleichgewicht, das wir alle immer noch herausfinden müssen.

Experten argumentieren, dass der Unterschied zwischen KI-Investitionen in China und den USA darin besteht, dass das amerikanische Modell von privaten Unternehmen vorangetrieben wird, während China einen staatlichen Ansatz verfolgt (JOSEP LAGO/AFP über Getty Images)
KLICKEN SIE HIER, UM DIE FOX NEWS-APP ZU ERHALTEN
Wie denken Sie angesichts all dieser Fortschritte und potenziellen Risiken über die Zukunft der KI und Deepfake-Technologie? Sehen Sie es als Segen oder als Fluch? Lassen Sie es uns wissen, indem Sie uns schreiben an Cyberguy.com/Kontakt
Für weitere meiner Sicherheitswarnungen abonnieren Sie meinen kostenlosen CyberGuy Report-Newsletter unter Cyberguy.com/Newsletter
Copyright 2023 CyberGuy.com. Alle Rechte vorbehalten.