23-09-2009
ATI Radeon 5870 / 5850 w teorii
ATI Radeon 5870 / 5850 w teorii

Nadesz³a rewolucja 3D
The game has changed – to has³o przy¶wieca³o prapremierze najnowszych Radeonów z
serii HD 5800, na któr± do Monachium zaproszeni zostali dziennikarze komputerowi
z ca³ej Europy. Nie by³a ona mo¿e a¿ tak efektowna, jak w USA, gdzie firma AMD/ATI
zaprosi³a go¶ci na pok³ad lotniskowca, ale i tak warto by³o zjawiæ siê w
Monachium. Radeon HD 5870 naprawdê robi piorunuj±ce wra¿enie.
Prasowa prapremiera najnowszych Radeonów mia³a miejsce kilkana¶cie dni
(dok³adnie odby³a siê 10 wrze¶nia) przed dzisiejsz±, oficjaln± premier±. Mimo
podpisania dokumentów o nie rozpowszechnianiu publicznym przedstawionych tam
informacji, dane i zdjêcia kart zaczê³y powoli wyciekaæ do Internetu. Spora
cze¶æ z Was zapewne zd±¿y³a ju¿ zapoznaæ siê z nimi. Jednak, jak to zwykle bywa
z „przeciekami”, wiele z tych informacji by³o „wyssanych z palca”, ale spora z
nich czê¶æ to prawdziwe dane. Spróbujmy zatem uporz±dkowaæ te informacje i
korzystaj±c z materia³ów z pierwszej rêki przedstawiæ now± architekturê i
funkcjonalno¶æ Radeonów HD 5800. Oczywi¶cie, ju¿ wkrótce na stronach FrazPC
znajdziecie równie¿ wyniki testów najnowszej karty z serii HD 5800 firmy AMD/ATI.
Zacznijmy od specyfikacji i wydajno¶ci
Wiêkszo¶æ graczy i u¿ytkowników interesuj±cych siê komputerami w chwili premiery
nowego akceleratora 3D zwraca przede wszystkim uwagê na parametry techniczne,
czêstotliwo¶æ zegara, liczbê procesorów strumieniowych, pamiêæ i jej taktowanie.
Wszystkie one w wypadku Radeona HD 5870 s± doprawdy imponuj±ce. Wystarczy
spojrzeæ na poni¿sz± ilustracjê.

Specyfikacja uk³adów ATI Radeon HD 5870 i HD 5850
Nic dodaæ nic uj±æ – 1600 procesorów strumieniowych, 32
jednostki ROP (Raster Operations Processor), 80 modu³ów TMU (Texture Mapping
Unit). Ró¿nica wzglêdem Radeona HD 4870 jest gigantyczna. Wszystkie elementy
architektury zosta³y podwojone.
Jak wiadomo, w Radeonach HD procesory strumieniowe grupowane s± w bloki po piêæ
jednostek – o czym za chwilê. Oczywi¶cie do ka¿dej takiej pi±tki uk³adów
dochodz± rejestry i jednostka przewidywania skoków. Takie pogrupowane w pi±tki
bloki procesorów strumieniowych nazwanych Thread Processors, w najnowszym
Radeonie HD 5870 jest ich 320. Do naszych celów przyjmijmy na chwilê (oczywi¶cie
jest to w pewnym sensie porównanie nieco na wyrost, gdy¿ procesory te s± po
prostu inne i nie da siê ich zestawiæ wprost), ¿e s± one jak gdyby
odpowiednikami procesorów strumieniowych NVIDII, równie¿ znanych pod nazw±
Thread Processors. W wypadku GeForce'a GTX 285 takich z³o¿onych procesorów
strumieniowych jest 240 (patrz:
http://www.frazpc.pl/artykuly/704/Technologia/Obliczenia/prowadzone/za/pomoca/kart/graficznych).
Oznacza to, ¿e przy takim za³o¿eniu, Radeon HD 5870 ma o oko³o 30% wiêcej
z³o¿onych jednostek strumieniowych ni¿ jest ich w GeForsie GTX 285. Teoretycznie
wydajno¶æ nowej karty powinna byæ zatem (przy tym samym taktowaniu), jak wynika
z prostego rachunku o oko³o 30% wy¿sza.
Radeon 5870 taktowany jest wy¿szym zegarem ni¿ GeForce GTX 285 - 850 MHz kontra
648 MHz, ale co ciekawe, mimo tego, ¿e Thread Procesory NVIDII dzia³aj± szybciej
ni¿ reszta uk³adu (bo z prêdko¶ci± 1476 MHz) to i tak wydajno¶æ Radeona, jak
pokazuj± wyniki producenta czyli firmy AMD/ATI, nie zmniejsza siê ni¿ szacowane
przez nas 30%, ale wrêcz wzrasta i wynosi w zale¿no¶ci od gry lub testu od
50-70%. Jak widaæ na poni¿szej ilustracji, w niektórych benchmarkach i grach
wydajno¶æ ta jest nawet do dwóch razy wy¿sza, ale oczywi¶cie wszystkie wyniki
wydajno¶ci podawane przez producenta nale¿y traktowaæ z du¿± ostro¿no¶ci±.
Mo¿ecie ju¿ je zweryfikowaæ w tek¶cie Radeon HD 5870 w praktyce, który równie¿
zosta³ dzisiaj opublikowany na ³amach FrazPC.pl.



Wydajno¶æ Radeonów HD 5870 i HD 5850 wg
testów producenta.
Na uwagê zas³uguje te¿ bardzo niskie zu¿ycie energii w trybie
Idle. Jest to zaledwie 27 watów – zarówno dla Radeona HD 5870, jak i HD 5850. W
porównaniu z Radeonem 4870, który w czasie bezczynno¶ci zu¿ywa³ 90 watów to
naprawdê spory postêp. Co prawda, maksymalny pobór mocy na poziomie 188 watów
(170 W dla Radeona HD 5850) nie zachwyca, tym bardziej, ¿e wykonany w starszym,
55-nanometrowym procesie technologicznym (do produkcji nowych wykorzystano
40-nanometrowy proces), Radeon HD 4870 pobiera³ „zaledwie” 160 W, ale zwróæmy
uwagê na to, ¿e sk³ada³ siê on „jedynie” z 956 milionów tranzystorów. Nowy chip
ma ich ponad dwa razy wiêcej. Radeon HD 5870 sk³ada siê bowiem z 2,15 miliarda
tranzystorów!!! Zwiêkszenie poboru mocy o zaledwie 28 watów przy ponad
dwukrotnym wzro¶cie liczby tranzystorów nale¿y uznaæ za wielki sukces.
Podobnie jak w kartach poprzedniej generacji do budowy nowych Radeonów
wykorzystano pamiêci GDDR5. Zwiêkszono jednak ich czêstotliwo¶æ taktowania z 900
do 1200 MHz (efektywnie 3,6 i 4,8 GHz) . Pozwoli³o to osi±gn±æ przepustowo¶æ
pamiêci na poziomie 153,6 GB/s na wykorzystywanej w nowych Radeonach 256 bitowej
szynie danych.
Teraflopsy dla ka¿dego
Jak pamiêtamy, architektura Radeona HD 4870 zapewnia³a wydajno¶æ obliczeniow±
rzêdu 1200 GFLOPS-ów i warto¶æ ta by³a znacznie wiêksza ni¿ 933 GFLOPS-y
uzyskiwane przez procesory graficzne NVIDII (GTX 280). Jak mo¿na zauwa¿yæ na
rysunku pierwszym oraz na poni¿szych dwóch slajdach, moc obliczeniowa Radeonów
HD 5800 przekracza 2 TFLOPS-y. Ma³o tego, dla karty HD 5870 zbli¿a siê niemal do
3 TFLOPS-ów (2,72 TFLOPS)!!!


Moc obliczeniowa nowych Radeonów przekracza 2
TFLOPS-y
Oczywi¶cie jest to moc obliczeniowa w operacjach pojedynczej
precyzji. W wypadku obliczeñ podwójnej precyzji moc obliczeniowa Radeonów 5800
jest oczywi¶cie mniejsza i wynosi dla Radeona HD 5870 - 544 GFLOPS-y, ale mimo
to jest to w dalszym ci±gu warto¶æ imponuj±ca.

Moc obliczeniowa dla dzia³añ w podwójnej precyzji uzyskiwana przez Radeona HD 5870 i budowa modu³ów Thread Processors
W¶ród dostarczonych przez producenta, firmê AMD/ATI, po
konferencji materia³ów mo¿na te¿ znale¼æ taki slajd.

Moc obliczeniowa Radeona HD 5870 jest 177 razy
wiêksza ni¿ pojedynczego procesora u¿ytego do budowy komputera IBM Deep Blue
Mo¿e on jednak niewprawnego czytelnika wprowadziæ w b³±d –
ciekawy jestem ile serwisów internetowych nie zauwa¿y tej nadinterpretacji
faktów. Jak siê bowiem okazuje porównania dokonano nie tyle dla ca³ego
superkomputera Deep Blue, ale dla pojedynczego procesora IBM SP P2SC 120 MHz
u¿ytego do jego budowy, którego wydajno¶æ wynosi 15,36 GFLOPS-a – informacjê t±
umieszczono na jednym z ostatnich slajdów ma³ym druczkiem.
Wracaj±c jednak do wykorzystania ogromnej mocy obliczeniowej, to podobnie jak w
wypadku wcze¶niejszych procesorów graficznych ATI, nowe uk³ady s± zgodne z
technologi± AMD/ATI Stream, która pozwala prowadziæ zaawansowane obliczenia nie
zwi±zane z grafik± w podobny sposób, jak w wypadku technologii NVIDIA CUDA.
Oczywi¶cie technologia AMD Stream zgodna jest z OpenCL oraz technologi± Compute
Shader Microsoftu (DirectCompute 11), co oznacza te¿ pe³n± kompatybilno¶æ ze
wszystkimi mechanizmami zaimplementowanymi w systemie Windows 7 i bibliotekach
graficznych DirectX 11 – patrz:
http://www.frazpc.pl/artykuly/704/Technologia/Obliczenia/prowadzone/za/pomoca/kart/graficznych.

Architektura ATI Stream Technology

Porównanie mo¿liwo¶ci obliczeniowych i funkcjonalno¶ci implementacji OpenCL dla Radeona HD 5870 i GeForce’a GTX
280 wykorzystanego w platformie Tesla
Oczywi¶cie, OpenCL pozwala wykorzystaæ heterogeniczne
¶rodowisko GPU+CPU przy u¿yciu jednego interfejsu programistycznego API. Bedzie
to mia³o kolosalne znaczenie przy projektowaniu i pisaniu przysz³ych aplikacji
obliczeniowych, gdzie programista bêdzie móg³ siê skupiæ wy³±cznie na
projektowanej czynno¶ci, a nie na wykorzystywanym do tego celu sprzêcie. Innymi
s³owy, program taki bêdzie siê móg³ wykonywaæ tylko na samym procesorze, jak
równie¿ wy³±cznie na uk³adzie graficznym, ale tak¿e, a raczej przede wszystkim,
jednocze¶nie na CPU i GPU. Procesem przekazywania obliczeñ i dynamicznym
podzia³em zadañ dla CPU i GPU bêd± siê ju¿ automatycznie zajmowa³y mechanizmy
zaimplementowane w ¶rodowisku OpenCL. Aplikacja taka bêdzie wiêc mog³a bez
problemu dzia³aæ nawet wówczas, gdy nie bêdzie w komputerze zgodnej z OpenCL
karty graficznej – obliczeniami zajmie siê w takim wypadku jedynie procesor, ale
kalkulacje, co oczywiste, bêd± trwa³y znacznie d³u¿ej.
Podobnie funkcjonuj± mechanizmy zaszyte w technologii Compute Shader Microsoftu
z DX 11, z którymi bêd± te¿ zgodne ju¿ za chwilê nowe karty NVIDII. Bior±c pod
uwagê powy¿sze fakty oraz to, ¿e platforma OpenCL, podobnie jak OpenGL, s±
platformami otwartymi, analitycy rynku przewiduj±, ¿e technologia CUDA NVIDIA
wkrótce przestanie mieæ wiêksze praktyczne znaczenie. Jest bowiem ma³o
prawdopodobne, ¿e programi¶ci bêd± chcieli pisaæ aplikacje pod specyficzne dla
jednego producenta rozwi±zanie techniczne. Oczywi¶cie nale¿y pamiêtaæ, ¿e nie
tylko karty graficzne AMD/ATI s± zgodne z OpenCL. Ze ¶rodowiskiem tym równie¿
wspó³pracuj± akceleratory bazuj±ce na uk³adach NVIDII, a tak¿e bêdzie z nimi
zgodny przysz³y uk³ad graficzny Intela Larrabee.

Sprzêtowe i programowe standardy niezale¿ne od producenta, które pozwalaj±
m.in., w odró¿nieniu od zamkniêtych rozwi±zañ jakim jest np. technologia CUDA,
na uruchomienie aplikacji (lub instalacjê podzespo³u) na dowolnym zgodnym z nim
sprzêcie PC

Standard przemys³owy OpenCL

DirectCompute 11


Komercyjne aplikacje zgodne z ATI Stream i DX 11

Test wydajno¶ci kart ATI i NVIDIA w zaawansowanych obliczeniach
kryptograficznych

OpenCL daje równie¿ mo¿liwo¶æ zaimplementowania obliczeñ fizyki
Stworzona pod DirectX 11
Wróæmy jednak do budowy nowych kart AMD/ATI. Architektura ta dostosowana zosta³a
do wymagañ bibliotek DirectX 11 i modelu cieniowania Shader Model 5.0. Szerzej
pisali¶my na ten temat w artykule o mo¿liwo¶ciach DirectX (patrz:
http://www.frazpc.pl/artykuly/727/DirectX/10,/DirectX/101/i/DirectX/11/Biblioteki/graficzne).

Za³o¿enia architektury Radeonów HD 5800
Przypomnijmy, ¿e pierwsz± istotn± modyfikacj± jest
wprowadzenie w DirectX 11 shaderów obliczeniowych Compute Shader i mechanizmu
DirectCompute Shader Model. Nale¿y jednak pamiêtaæ, ¿e element ten nie jest
jednak bezpo¶rednio wykorzystywany podczas generowania obrazu i, jak przed
chwil± wspomnia³em, pozwala on na prowadzenie na karcie obliczeñ nie zwi±zanych
w ogóle z generowaniem grafiki. Tak naprawdê jest on rozwiniêciem architektury
zunifikowanych shaderów i wystêpowa³ ju¿ w poprzednich wersjach DX-ów. Jakie s±
za¶ ró¿nice w implementacji tego mechanizmu pokazuje poni¿szy rysunek.

DirectCompute Shader Model

Najwa¿niejsze cechy DirectX 11
Jednak od strony obliczeñ graficznych, najwa¿niejszym
elementem nowej architektury jest pojawienie siê zgodno¶ci z dwoma nowymi typami
shaderów: Hull i Domain Shader, czyli po polsku shader pow³oki i shader
dziedziny – patrz:
http://www.frazpc.pl/artykuly/727/DirectX/10,/DirectX/101/i/DirectX/11/Biblioteki/graficzne
Dziêki nim realizowany jest m.in. etap teselacji.


Teselacja w DX 11
Istotnym nowymi elementami wprowadzonymi w DX 11
obs³ugiwanymi przez Radeony HD 5800, które bêd± implementowane w grach s±
równie¿ mechanizmy Order Independent Transparency (OIT) oraz nowe elementy
postprocessingu. Oto ich krótki przegl±d.


Order Independent Transparency (OIT)



Przyk³adowe efekty postprocessingu

Dlaczego twórcy gier zdaniem AMD/ATI „przesi±d± siê” na DX11
Architektura
Przyjrzyjmy siê teraz samej architekturze nowych Radeonów. Pod wzglêdem budowy i
dzia³ania bloków funkcjonalnych ko¶ci o kodowej nazwie RV870 nie ró¿ni± siê one
zbytnio od Radeona HD 4870 (RV770). Dodatkowe wprowadzone w potoku DirectX 11
operacje s± realizowane za pomoc± pogrupowanych w bloki procesorów
strumieniowych Thread Processors, o których wspomnia³em na pocz±tku, których
jest dwa razy wiêcej, lub silnika graficznego, w którym znalaz³ siê m.in.
wymagany przez DX 11 teselator. Ulepszona, zoptymalizowana architektura,
obs³uguj±ca m.in. nowy zestaw instrukcji nosi nazwê TeraScale 2.

Architektura TeraScale2

Ró¿nice w budowie ko¶ci RV770 (TeraScale) i RV870 (TeraScale 2)
Operacje graficzne realizowane na trójk±tach praktycznie w
ca³o¶ci realizowane s± przez modu³ silnika graficznego. Dostêp do niego mo¿liwy
zarówno z Vertex i Pixel Shaderów, jak i z poziomu Domain i Hull Shadera. Te
ostatnie jako jedyne s± w stanie obs³u¿yæ operacje realizowane prze jednostkê
teselatora.

Silnik graficzny ATI w architekturze RV870

Jednostki teksturuj±ce, pamiêæ cache i po³±czone w bloki wykonawcze SIMD
procesory strumieniowe
W stosunku do poprzedników nie zmieni³a siê równie¿
architektura pamiêci. Zoptymalizowano j± jedynie pod wzglêdem szybko¶ci
przesy³ania danych. Zwiêkszono te¿ szybko¶æ zegara. Cztery znajduj±ce siê w
uk³adzie RV870 kontrolery zoptymalizowane zosta³y do szybkiej zmiany
czêstotliwo¶ci pracy i napiêcia zasilaj±cego. To miêdzy innymi dziêki temu
mechanizmowi nowe Radeony pobieraj± w spoczynku tylko 27 watów energii.

Interfejs pamiêci GDDR5

Mechanizm Dynamic Power Management
ATI Eyefinity – praca i gra na sze¶æ monitorów
Wraz z Radeonem HD 5870 zadebiutowa³a technologia ATI Eyefinity. Jedna karta
graficzna bêdzie mog³a obs³u¿yæ jednocze¶nie maksymalnie do sze¶ciu monitorów –
do tego celu stworzono specjaln± wersjê Radeona HD 5780 wyposa¿on± w sze¶æ
z³±czy HDMI.

Karta Radeon HD 5870 Eyefinity Edition
Jak mo¿na siê domy¶liæ, technologia ATI Eyefinity jest
adresowana przede wszystkim do graczy, ale równie¿ mog± z niej skorzystaæ np.
u¿ytkownicy potrzebuj±cy wiêkszego lub kilku pulpitów – np. maklerzy gie³dowi.
Technologia pozwala na jednoczesn± pracê maksymalnie sze¶ciu monitorów, ale
dopuszczone s± tak¿e inne konfiguracje – na przyk³ad trzech monitorów obok
siebie, trzy obok siebie i jeden powy¿ej itp.

Mo¿liwo¶ci zestawienia monitorów przy korzystaniu z technologi Eyefinity
Najwiêksz± zalet± technologii Eyefinity jest mo¿liwo¶æ
³±czenia monitorów przy pomocy jednej karty graficznej – bez ¿adnych
przej¶ciówek, a proces konfiguracji sprowadza siê do w³±czenia kilku ustawieñ w
sterowniku. Podczas konferencji zaprezentowano Eyefinity w dzia³aniu (zdjêcia na
koñcu artyku³u). Z technologi± t± wspó³pracuj± m.in. gry Colin McRae: DiRT 2,
Tom Clancy’s H.A.W.X, GRID i Battleforge. Na konferencji zobaczyæ te¿ mo¿na by³o
pokaz nowego silnika CryEngine 3 dzia³aj±cego m.in. na Eyefinity. Obecnie
technologia ta obs³uguje ok. 80 gier. Co wa¿ne, wiele gier bêdzie obs³ugiwaæ ATI
Eyefinity „z marszu”. Sterowniki dodadz± bowiem w opcjach gry mo¿liwo¶æ wybór
odpowiedniego trybu rozdzielczo¶ci, który wystarczy wybraæ.

Dodatkowe ustawienia dla ATI Eyefinity w grach
Fotorelacja z konferencji
Na zakoñczenie chcia³em zaprezentowaæ kilka zdjêæ z monachijskiej prapremiery
kart ATI Radeon 5800. Na pocz±tek kilka agencyjnych zdjêæ samej karty
referencyjnej – moje niestety nie wysz³y tak dobrze :-). Zwróæcie uwagê na
nietypowy design karty, wyloty powietrza, oraz dwa dodatkowe z³±cza zasilaj±ce
kartê. Uprzedzaj±c pytania, mie¶ci siê ona bez problemu w standardowej obudowie
– zajmuje tak jak jej poprzednik szeroko¶æ dwóch „¶ledzi”.



ATI Radeon HD 5870



Demonstracja na ¿ywo nowej karty ATI Radeon HD 5870 w wersji Eyefinity




Technologia ATI Eyefinity na trzech i sze¶ciu monitorach


Teselacja w grze DiRT 2 i Alien vs. Predator. Na pierwszym zdjêciu flaga bez
teselacji



HDAO (High-Definition Ambient Occlusion) w Alien vs. Predator

Obliczenia dla 1000 ¼róde³ ¶wiat³a z wykorzystaniem Compute Shadera
Autor: Marcin Bieñkowski
Komentarze (9) |