Ich würde sagen, "einfach" das entsprechende 3D-Objekt gebaut und animiert und via Compositing mit dem Echtbild verschmolzen. Dann noch einen Übergang zu diesem Teil als reales Objekt gemacht (vielleicht sogar mit einem 3D-Drucker gedruckt).
Ich kann da keinerlei Kamerabewegung erkennen, insofern wurde wohl nicht mit Tracking gearbeitet, sondern mit einem Stativ. Bei nochmaligem Ansehen sieht es auch so aus, als wäre das komplett vor einem Greenscreen aufgenommen und der Hintergrund komplett CGI bzw. ein Stock-Foto im 1. Clip.