Hallöchen
zur Bildvorhersage hat mein Vorredner das schon korrekt erklärt. Es gibt also verschiedene Arten von Bildern, also z.B. solche, die als Referenzbilder dienen, um Vorhersagen über die weiteren Bilder treffen zu können und solche, für die dann jeweils nur der Unterschied zum referenzierten Bild gespeichert wird. Dadurch kann man schon eien ganze Menge an Informationen sparen, da man für manche Bilder nur die Bewegungsvektoren braucht.
Zum 2.: Das was du da sagst ist nicht ganz richtig, nur teilweise. Luminanz und Farbwerte sind nämlich immer getrennt, aber RGB ist es trotzdem. Das liegt daran, dass das menschliche Auge Farbwertveränderungen nicht so stark wahrnimmt, wie Veränderungen oder Fehler in den Helligkeitswerten - das Auge reagiert also stärker auf Helligkeitsabweichungen, als auf die von Farbwertabweichungen. Demnach hat man sich überlegt, dass dieses Defizit zur Komprimierung von Videoströmen genutzt werden kann, in dem man die Farbwerte einfach unterabtastet ("subsampling"). 4:4:4 würde z.B. bedeuten, dass keine Unterabtastung stattfindet: Für jeden Helligkeitswert wird auch ein Farbwert (jeweils von R, G und B) genommen). 4:2:0 bedeutet nun, dass die Helligkeitswerte (wie immer) in jeder Zeile und Spalte abgetastet werden, jedoch die Farbwerte nur jede 2. Zeile und in jeder 1. Zeile nur halb so oft, wie das Y (Helligkeits-) Signal.
Wie du hier sehen kannst, hat dieses Verfahren im Endeffekt zur Folge, dass die Farbwerte nicht in den "richtigen" Zeilen, sondern dazwischen liegen. Dadurch kann es u.U. zu Farbflimmern kommen.
Standart ist eigentlich eine Abtastung von 4:2:2.
Aber das sind alles Dinge, die auch schon beim Mpeg standart implementiert sind. Es gibt demnach noch andere Methodiken, die den h.264 Standart unterscheidet, wodurch eine sehr gute Komprimierung bei gleicher Qualität möglich wird. (Besonders hervorzuheben ist jedoch vor allem der 1. Punkt mit der Bewegungsvorhersage).
Ich hoffe, dass ich dir ein wenig helfen konnte.