Adobes KI verbessert auch die schlechtesten Sprachaufnahmen

Adobe Podcast: Mit künstlicher Intelligenz zum perfekten Sprechersound

Adobe Podcast holt auch aus schlechten Aufnahmen mit zu viel Hall, Umgebungsgeräuschen oder schlechter Tonqualität erstaunlich gute Ergebnisse heraus.

Oft hat man für Podcasts und Interviews nicht die beste Umgebung oder ein professionelles Aufnahmegerät zur Verfügung. Räume mit viel Hall. Hintergrundgeräusche durch Verkehr, Klimaanlagen oder andere Störungsquellen oder man musste einfach mal schnell mit dem Smartphone ohne Ansteckmikrofon aufnehmen. Die Aufnahmen sind dann meist nicht optimal.

Creative Cloud Photography Plan
  • Nutze generative KI mit Vollversionen von Lightroom (Desktop und Mobil), Photoshop (Desktop und iPad) und Lightroom Classic (Desktop).
  • Fotos in Lightroom bearbeiten und mit KI-gestützten Funktion „Generative Remove“ alles aus Bildern entfernen. Transformiere sie dann in Photoshop mit generativen KI-Tools auf Basis von Adobe Firefly.
  • KI-gestützte Funktionen „Generative Fill“ und „Generative Expand“, um Inhalte in jedem Bild hinzuzufügen, zu entfernen oder zu erweitern.

Zwar gibt es schon einige Jahre Tools, die sehr viel reparieren können, wie z. B. Izotope RX oder das Zynaptiq REPAIR Bundle. Diese sind aber recht teuer und auch relativ anspruchsvoll in der Anwendung.

Adobe Podcast Speech Enhance

Adobe bietet mit „Podcast“ nun einen Service an, der Sprachaufnahmen auf Knopfdruck verbessern kann und die Ergebnisse von Enhanced Speech sind erstaunlich. Natürlich setzt Adobe auch hier auf eine KI.

Aufnahmen werden einfach per Drag-and-drop im WAV oder MP3 Format hochgeladen und je nach Aufnahmelänge, bekommt man nach einiger Zeit die optimierte Version zum Vergleich und Download angeboten.

Adobe Podcast Speech Enhance bei der Arbeit

Ich habe für euch einmal ein paar Tests gemacht.

Die erste Aufnahme wurde nur mit dem Smartphone und der kostenlosen Audiorecorder App Dolby On (iOS Version) und den eingebauten Mikrofonen gemacht:

Originalaufnahme – nur Smartphone
Adobe Podcast Version – nur Smartphone

Aufnahmen mit Ansteckmikrofon:

Hier eine Aufnahme mit dem Hollyland Mikrofon in der gleichen Umgebung, wie bei der ersten Aufnahme

Und hier die verbesserte Version mit Adobe Podcast Enhance Speech:

Die dritte Aufnahme habe ich mit den Hollyland Lark C1 Ansteckmikrofonen und der kostenlosen Audiorecorder App HandyRec von Zoom (iOS Version) erstellt, die einen kompletten digitalen Audiorecorder nachbildet und viele hilfreiche Einstellmöglichkeiten bietet. Dazu war ich im Garten, wo Vogelgezwitscher und Straßengeräusche zu hören waren:

Originalaufnahme draußen
Mit Adobe Enhance Speech bearbeitete Version

Fazit

Die Unterschiede sind schon mehr als erstaunlich. Hintergrundgeräusche und Hall wurden hervorragend aus den Aufnahmen entfernt. Der Klang wurde optimiert und komprimiert. Momentan werden für meinen Geschmack die S-Laute etwas zu stark unterdrückt, sodass es manchmal etwas nach Lispeln klingt. Ebenso treten bei sehr starken Hintergrundgeräuschen auch mal Artefakte auf, was aber durchaus verschmerzbar ist. Hier wäre es schön, wenn man die Intensität der Geräuschunterdrückung einstellen könnte, denn es ist nich immer erforderlich, alle Geräusch komplett auszublenden. Der Service befindet sich aber im Beta-Stadium und wird laufen verbessert.

Hervorheben muss man, dass die optimierten Aufnahmen nicht tot-komprimiert wurden und man noch reichlich Spielraum für eigene Anpassungen hat. Dazu bietet sich z. B. auch der pure:limit von sonible an.

Ich habe Adobe Enhance Speech auch schon dazu genutzt, Webinar-Aufzeichnungen klanglich zu verbessern, was selbst bei Aufnahmen mit komprimierter Audiospur einen deutlichen Gewinn brachte. Gleiches gilt für Audiospuren aus Handyvideos etc. Einfach mal ausprobieren!

Hier geht es zu Adobe Podcast Speech Enhance

Melde dich zu meinem Newsletter an!

Du kannst dich jederzeit abmelden und ich verspreche: Kein Spam!


Die mit Sternchen (*) gekennzeichneten Verweise sind sogenannte Provision-Links. Als Amazon-Partner verdiene ich an qualifizierten Verkäufen.Wenn du auf so einen Verweislink klickst und über diesen Link einkaufst, bekomme ich von deinem Einkauf eine Provision. Für dich verändert sich der Preis nicht und du unterstützt damit meine Arbeit. Preisänderungen und Irrtümer vorbehalten.

4 Kommentare

  1. KI wo man geht, steht, schreibt und nun auch spricht. Aber es ist wie bei schlecht aufgelösten Fotos, aus Mist wird kein Gold. Im letzten Beispiel hört man deutlich das Vogelgezwitscher über der Sprache. Aber: Nimmt man hier ein relativ sauberes Signal auf und schiebt es dann nochmal über die KI, könnte das nochmals das Grundrauschen minimieren. Somit sind vermutlich sauteure Mikros von z.B. Neumann oder Brauner in Zukunft obsolet. Wobei es in dieser Liga kaum um’s Rauschen geht, sondern eher um die Klangcharakteristik an sich. Darum verkaufe ich meine auch nicht :-))) Ich vermute allerdings, dass es in wenigen Jahren eine KI gibt, bei der jeder wie Stallone oder Whitney Houston klingen kann. Irgendwie schon gruselig der Gedanke….

    • Die Rolle der Mikrofone wir hier gerne überschätzt. Viel wichtiger ist die Umgebung und dass diese akustisch optimiert ist. Genau das ist der eigentliche Vorzug dieser KIs, da sie Hall und alles, was damit einhergeht (Frequenzauslöschungen durch Refexionen etc.), erstaunlich gut entfernen.

      Die anderen KIs gibt es übrigens schon: https://voice.ai/ (die ist wirklich erschreckend) und https://www.youtube.com/watch?v=MndJGQZUetE

  2. Ich habe das Tool mit einer Aufnahme im Standesamt mit Hintergrundgeräuschen (z.B. Babys) ausprobiert. Die Stimme des Standesbeamten, der sehr leise und etwas nuschelig gesprochen hat, wird ganz gut herausgeholt. Aber das Tool generiert aus den Hintergrundgeräuschen teilweise ein gnomenhaftes Lachen. Hm.

    • Naja, Nuscheln kann es nicht verbessern 🙂
      Es kann helfen, wenn man den Pegel vor dem Upload verstärkt. Grundsätzlich kann es aber auch keine Wunder vollbringen.

Kommentare sind geschlossen.