Visual-Appearance-from-Audio

Visual Appearance from Audio ist eine Anwendung, mit deren Hilfe Videos von sprechenden Personen aus Audiodateien erzeugt werden können.

Als Rohmaterial wird ein mehrminütiges Video einer sprechenden Person und eine Audioaufnahme derselben Person benötigt. Die Anwendung berechnet dann zunächst, wie die Einzelbilder des Ausgangsvideos mit den dazugehörigen Audiodaten korrelieren. Anschließend wird dann berechnet, welche der Bilder mit den neuen Audiodaten am besten korrelieren und erstellt aus diesen eine neue Videodatei.

Ausführlichere Informationen gibt es im dazugehörigen Paper

Projekt auf Google Colab ausprobieren