Fermi GF100 im Technik-TÜV: Kommentare zu Architekturdetails, Bildqualität und Benchmarks
Fermi ist Nvidias Grafikkarten-Hoffnung. Eine komplett neue Architektur soll sowohl den GPU-Computing bzw. HPC-Markt als auch PC-Spieler zufriedenstellen. Details über die GF100-Geforce-Facetten des Fermi-Janus gab Nvidia im Anschluss an die CES in Las Vegas bekannt. (Carsten Spille, 18.01.2010)
"We are a gaming company, first and foremost" - Mit diesen wohlbedachten Worten leitete Nvidias frisch gebackener General Manager für Desktop-Business, Drew Henry, den "Architecture Deep Dive" zur Geforce-Grafikkarte auf Fermi-Basis, Codename GF100, ein. Zuvor, auf der GPU-Technology-Conference im September 2009, war bereits die grundlegende Fermi-Architektur, allerdings mit Fokus auf den GPU-Computing Fähigkeiten von Fermi vorgestellt worden und viele PC-Spieler beklagten, Nvidia hätte seine Kernzielgruppe aus den Augen verloren.
Fermi GF100 im Technik-TÜV: Kommentare zu Architekturdetails, Bildqualität und Benchmarks
Fermi / GF100: Wann kommen welche Karten?
Laut Nvidia befinden sich die Fermi-GPUs per 10. Januar in "voller Produktion", nachdem man nach eigenen Angaben bereits 10 Millionen 40nm-GPUs ausgeliefert habe. Nvidia wünschte sich zwar, Fermi bereits früher ausliefern zu können, kann oder will aber derzeit keine Aussage zur Verfügbarkeit machen. Auch die Namen der Karte hält man genauso geheim, wie die Pläne zur Modellvielfalt und die Preise zum Launch.
Unser derzeitiger Tipp: Im März werden die ersten Karten verfügbar sein, es wird zwei Modelle geben: Eine "Vollausstattung" und eine abgespeckte Version mit 448 oder 480 Shader-Einheiten (1 oder 2 deaktivierten SMs) und einem 320 Bit Speicherinterface und 1.280 Megabyte Videospeicher. Vielleicht heisst das komplette Modell Geforce GTX 380, die kleinere Schwester dann GTX 360. Die Preise dürften bei 500 und mehr Euro für die große und vielleicht 350 bis 400 Euro für die kleinere Version liegen - je nachdem, wo sie sich in Sachen Fps-Leistung gegenüber der Radeon-HD-Reihe positionieren.
Fermi / GF100: Versionen
Die folgenden Modelle sind eine Einschätzung von PC Games Hardware, da Nvidia bislang weder Taktraten noch Modellvielfalt ankündigen möchte. Die Angaben können sich daher durchaus als unrichtig herausstellen und sind daher ohne jegliche Gewähr.
"Geforce GTX 380"
• 4 GPCs mit 512 Shader-ALUs (Cuda-Cores) und 64 TMUs
• 384 Bit Speicheranbindung mit 48 ROPs
• 1.536 MiByte GDDR5-RAM
• 1x 6-Pin & 1x 8-Pin Stromanschluss (>225 bis 300 Watt möglich)
• Taktraten (optimistisch!): ~750/1.500/2.400 MHz für GPU-/Shader- und GDDR5-Takt
"Geforce GTX 360"
• 4 GPCs mit 448 Shader-ALUs (Cuda-Cores) und 56 TMUs
(2 Shader-Multiprozessoren mit je 4 TMUs deaktiviert)
• 320 Bit Speicheranbindung mit 40 ROPs
• 1.280 MiByte GDDR5-RAM
• 2x 6-Pin Stromanschluss (>150 bis 225 Watt möglich)
Um angesichts der 40nm-Probleme bei der Chipschmiede die Modularität der Architektur auszunutzen und damit möglichst viele Chips zu retten, ist theoretisch außerdem noch eine dritte Version denkbar. Hier stellt sich allerdings die Frage, inwieweit sich das vermutlich teure Boarddesign und die Platinenkosten angesichts der zu erzielenden Verkaufspreise noch lohnen würde. Andererseits hat AMD mit der HD 2900 GT vorgemacht, dass es nicht unmöglich ist. Ob eine solche oder ähnliche Minimal-Version herauskommt, hängt wohl maßgeblich mit der Ausbeute an Chips ab, die TSMC und Nvidia erzielen können und die sich noch als eines der oben genannten Modelle verkaufen lassen.
"Geforce GTX 3xx"
• 3 GPCs mit 384 Shader-ALUs (Cuda-Cores) und 48 TMUs
• 256 Bit Speicheranbindung mit 32 ROPs
• 1.024 MiByte GDDR5-RAM
• 2x 6-Pin Stromanschluss (>150 bis 225 Watt möglich)
Im Laufe des Tages präsentierten die Nvidia-Mannen weitere Architektur-Details der Grafikkarte GF100-Fermi. Dieses Mal mit deutlichem Fokus auf die Verbesserungen, welche Fermi dem PC-Spieler bringen soll. PC Games Hardware erklärt im Folgenden die wesentlichen Details der Nvidia-Präsentation, bei der GF100-Fermi unter dem Motto "Geometric Realism" präsentiert wurde.
Achtung: Fermi / GF100 ohne eigene Benchmarks!
Sowohl die zur Schau gestellten Fermi-Grafikkarten als auch die Benchmarks sind nur zum Angucken, nicht zum Anfassen gewesen. Die Benchmarks sind von Nvidia ausgewählt und angefertigt worden, sodass wir keinen Einfluss auf deren Aussagekraft für die allgemeine Leistungsfähigkeit haben. Die gezeigten Fermi-Grafikkarten (s. Bild oben) sind ebenfalls noch nicht final und werden zur endgültigen Produktreife wahrscheinlich noch einmal neu designed. Auch liefen die Lüfter mit einer festgelegten Drehzahl, eine Lüftersteuerung war nicht aktiviert. Aussagen zur Geräusch- und Wärmeentwicklung der Karten entbehren somit jeder Grundlage.
Fermi / GF100: Der Chip im Überblick
Wie bereits in unserem recht ausführlichen Fermi-Architektur-Preview, Teil 1 erwähnt, integrierten Nvidias Ingenieure auf dem (ersten) Fermi-Chip rund 3 Milliarden Transistoren - AMDs Cypress-GPU kommt hier auf 2,15 Mrd. Schaltungen. Beide Chips werden in TSMCs 40nm-Prozess hergestellt, teilen sich also die Unbillen dieser Strukturtechnik. Unterstellt man, dass Nvidia dieselbe Packdichte erreicht wie AMD, dürfte der Fermi-GF100 rund 490 Quadratmillimeter groß werden. Legt man die Packdichte zugrunde, welche Nvidias bis dato größter 40nm-Chip GT215 erreicht, betrüge die Die-Größe bereits 574 Quadratmillimeter. Eine offizielle Angabe von Nvidia existiert diesbezüglich nicht.
Fermi / GF100 "Speeds and Feeds":
Insgesamt kommen wir für einen Fermi-Chip im Vollausbau auf die folgende Anzahl der jeweiligen Einheiten und Durchsätze pro Takt:
• 1 Host-Interface
• 1 Giga-Thread-Engine
• 4 Rasterisierungs-Einheiten ( "Rasterizers" )
• 16 Geometrie-Einheiten ( "Polymorph-Engines" )
• 512 Shader-ALUs (Cuda-Cores)
• 64 Textureinheiten (TMUs)
• 48 Raster-Operatoren in sechs Gruppen à 8 ROPs
• 384 Bit breiter, in sechs Gruppen aufgeteilter GDDR5-Speichercontroller
• 768 kiB Level-2-Cache (voll kohärent, Lese- und Schreibzugriffe)
Pro Takt lassen sich folgende Durchsätze erzielen:
• 512 FMA/MAD-Anweisungen pro Takt (Single-Precision, 32 Bit)
• 256 FMA/MAD-Anweisungen pro Takt (Double-Precision, 64 Bit)
• 4 Dreiecke pro Takt
• 32 rasterisierte Pixel pro Takt
• 384 Tiefenvergleiche pro Takt (Z-tests)