Das Ambiente wird oft zusätzlich aufgenommen und dann mit den Sprachspuren der Schauspieler zusammengemischt.
Nehmen wir eine Szene in einem Café, in dem sich zwei Personen unterhalten.
Die Komparsen spielen stumm, während die Schauspieler sich unterhalten. Das wird dann mit Nierenmikros (oder versteckten Mikros aufm Tisch, oder je nach Bildausschnitt auch Lavaliermikros) aufgenommen.
Der nächste Take wäre, dass die Komparsen sich unterhalten, Getränke bestellen, die Bedienung rumläuft, Gläser klirren, Stühle rücken usw.
Beides wird dann zusammengemischt.
Möglicherweise werden dazu noch andere Geräusche aus Soundbibliotheken dazugemischt. Das ist die Arbeit eines Foley Artist und wird angewandt, wenn vor Ort die Aufnahmebedingungen schlecht sind oder Geräusche nicht einfach selbst produziert werden können.
Wenn Sprecher zweistimmig aufgenommen werden, werden die Tonspuren so synchronisiert, dass sie einstimmig klingen. Das macht Sinn, wenn z.B. ein Mikrofon die Höhen gut aufnimmt, der Sound aber zu dünn wirkt; dann kann mit einem Mikro, das den Bassbereich stärker betont, der Sound nochmal aufgeputscht werden. Oder eben für den Raumklang: Es gibt verschiedene Mikrofonierungssysteme für den Raumklang (z.B. Stereoanordnungen, Decca Tree, ORTF... und, ja, das simpelste wäre ein Kugelmikrofon), die von den Sprechern akustisch isoliert werden müssen, oder eben mit den Sprachspuren synchronisiert. Die Nachbearbeitung ist immer aufwändig, aber ein ganzes Team darauf warten zu lassen, dass die Tonmenschen jetzt endlich jedes Mikro richtig ausgerichtet haben, kann auch ganz schön ins Geld gehen. Da muss abgewogen werden, was das kleinere Übel ist.
Ein Echo entsteht nicht durch die Aufnahme eines Schauspielers mit mehreren Mikros, sondern ist ein rein raumakustisches Phänomen: Der Schall wird an einer Stelle (z.B. an der Wand) reflektiert, sodass das Gesagte zeitversetzt wieder gehört wird. Das passiert ständig, aber in kleinen Räumen fällt das nicht auf, dafür ist die Verzögerung viel zu kurz. Wenn man aber im Gebirge eine Bergwand in 330m Entfernung anschreit, hört man etwa 1 Sekunde später das Echo.
Zum Richtmikro: Es ist nicht so, dass ein Richtmikro allen Umgebungssound komplett ausblendet. Es nimmt nur aus einem sehr engen Winkel auf.
Bei der Indoor-Aufnahme setzen Tontechniker normalerweise Nierenmikros statt Richtmikros ein. Sie haben einen größeren Aufnahmewinkel und können daher auch mehr vom Ambiente aufnehmen, außerdem lösen sie höhere Frequenzen (wichtig für Sprachverständlichkeit) oft besser auf als ein durchschnittliches Richtmikro. Wobei man davon ausgehen kann, dass die Mikros in den Sendeanstalten keinesfalls durchschnittlich sind, sondern relativ hochqualitativ und dementsprechend teuer