SSE128
Één van de belangrijkste verbeteringen bij de Core 2 Duo ten opzichte van vorige Intel processors was de mogelijkheid om 128-bit SSE-instructies in één keer uit te voeren. Bij oudere Intel processors en ook bij AMD's bestaande chips moet een SSE-instructie met 128-bit data eerst in twee 64-bit instructies worden opgedeeld en daarna ook in twee cycles worden uitgevoerd. Het verbreden van de floating point execution units zodat 128-bit instructies in één keer kunnen worden uitgevoerd, is een van de voornaamste redenen waarom Intel bij vele benchmarks haar concurrent voorbij is gestreefd.
In Barcelona heeft AMD dezelfde truc toegepast en zodoende kan de nieuwe chip dus ook in één cycle 128-bit instructies uitvoeren. Deze versnelling van de uitvoering van instructies zorgde echter weer voor een aantal nieuwe bottlenecks die men ook direct heeft aangepakt: waar de overdracht van data tussen geheugencontroller en cache en tussen cache en rekeneenheid tot nu toe nog met 64-bit per klokslag plaatsvond, gebeurt dat nu met 128-bit per klokslag.
Ook de FP Scheduler, de eenheid die instructies klaar zet om verwerkt te worden, is uitgebreid en kan 36 128-bit instructies in plaats van 36 64-bit instructies aan. Om ervoor te zorgen dat deze grote instructies snel genoeg naar de scheduler kunnen worden toegevoerd is de instruction fetch bandwidth ook verhoogd van 16 bytes per klokslag naar 32 bytes per klokslag. Van dat laatste profiteren overigens niet alleen de genoemde 128-bit SSE instructies, maar ook alle andere taken die de processor kan uitvoeren.
Waar AMD op dit moment in benchmarks die sterk afhankelijk zijn van SSE-code (denk aan video encoding) flink achterloopt op Intel zou de nieuwe 128-bit SSE verwerking in de toekomst dit verschil weer teniet kunnen doen.