Mix und Arrangement sichtbar gemacht
Ich habe kürzlich mit den gleichen Freunden, mit denen ich vor 10 Jahren die Dino-Songs CD aufgenommen hatte, einen neuen Song aufgenommen: "10 chlini Rägetropfe", so quasi als 10 Jahre Dino-Songs Jubiläums-Aktion.
Der Song hat eine grosse Dynamik und ein abwechslungseriches Arrangement und es ist gar nicht so einfach rauszuhören, wann welche Instrumente ein- oder aussetzen. So kam ich auf die Idee, das für die Hörer in einem Video sichtbar zu machen!
Nachfolgend erkläre ich kurz, wie ich das gemacht habe:
- Spuren
- Der Song besteht aus 9 Tonspuren: Gesang, 3 Gitarren-Spuren, Bass, Akkordeon, Klavier, Mundharmonika und Schlagzeug. Genau genommen handelt es sich beim Schlagzeug-Track um einen sogenannten Gruppen-Track, welcher wiederum aus mehreren einzelnen Spuren (Bass Drum, Snare usw) sowie zusätzlichen Perkussions-Spuren (Tambourin etc) besteht. Diese sind der Einfachheit halber (und weil sie sich bei einem akustischen Schlagzeug auch gar nicht sauber separiert aufnehmen lassen) zu einer einzelnen Spur zusammengefasst.
- Spur-Analyse
-
In einem ersten Schritt habe ich die Lautstärke-Informationen (RMS-Werte) aus den einzelnen Spuren berechnet, da ich die später für die Animation brauche. Das sieht so aus:
Im Diagramm sieht man für jede Tonspur über die Dauer des ganzen Songs, wann sie wie laut im Mix vorhanden ist. Jeder Tonspur habe ich zudem ein passendes Instrumenten-Bild zugeordnet (dem Gesang: ein Mikrofon). Für jede Spur bracht es noch Koordinaten, an welchen das Instrumenten-Bild angezeigt werden soll. Da ich als Video-Hintergrund die Cover-Illustration mit der Wolke und den Regentropfen verwende, habe ich die Instrumente gleich auf einzelene "Regentropfen" verteilt. Instrumente, die beim Anhören in Stereo / mit Kopfhörern eher links zu hören sind, erhalten die Koordinaten von Regentropfen auf der linken Seite. Schlagzeug und Bass sind in der Mitte. Der Gesang ebenfalls. - Bilder generieren
-
Im nächsten Schritt erzeuge ich die Bilder. Ein Video besteht im Grunde genommen einfach aus einzelnen Bilder, die so schnell nacheinander angezeigt werden, dass das Gehirn sie nicht mehr als einzelne Bilder wahrnehmen kann.
Typisch ist eine Frame-Rate von 25, als 25 Bilder pro Sekunde. Für den ganzen Song mit einer Dauer von 231 Sekunden brauche ich rund 5800 Bilder.
Diese werden also collage-mässig einzeln "zusammengesetzt", wobei die Grösse der Instrumente zum gegebenen Zeitpunkt der "Lautstärke", also quasi dem "Ausschlag" im obigen Spuren-Plot entsprechen soll.
Die einzelnen Instrumenten-Bilder
sollen eine gegebene quadratische Maximalgrösse nicht überschreiten dürfen, damit sie sich nicht zu sehr überlappen. Hat ein Bild z.B. seine maximale Breite erreicht, darf es in der anderen Dimension (Höhe)
noch weiter wachsen, bis es eine quadratische Form erreicht hat. Das ist z.B. bei der Bass-Gitarre gut zu sehen, die bei lauten Tönen nicht mehr länger, aber dicker wird.
Die 5800 Bilder werden durchnummeriert abgespeichert. Hier als Beispiel das 3000. Bild (welches unter dem Namen frame_03000.jpg abgespeichert wird und der Song-Position 2 Minuten 0 Sekunden, also 120s entspricht, weil 120 Sekunden * 25 Bilder = 3000stes Bild).
Damit man ganz am Anfang des Songs (während das Schlagzeug noch leise Wind- und Regengeräusche macht), kurz alle Instrumente sehen kann, habe ich die Bilder der ersten zwei Sekunden noch durch eine kleine "Instrumenten-Schrumpf-Animation" ersetzt. - Video erzeugen
- Im letzten Schritt musste ich nun einfach noch die 5800 Bilder zusammen mit der fertig abgemischten Song-Tonspur in ein mp4-Video umwandeln. Das Resultat sieht dann so aus: YouTube
- Programm-Code
- Du möchtest ganz genau wissen, wie ich das gemacht habe? Hier findest Du den Programm-Code: github: VideoGeneratorForMultiTrackAudio