Keresés: - AMD GPU-k jövője - amit tudni vélünk

LOGOUT.hu témák

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD.hu témák

Keresés

Téma összefoglaló

Utoljára frissítve: 2017-08-30 10:47

Fototrend

A legtöbb kérdésre (igen, talán arra is amit éppen feltenni készülsz) már jó eséllyel megtalálható a válasz valahol a topikban. Mielőtt írnál, lapozz vagy tekerj kicsit visszább, és/vagy használd bátran a keresőt a kérdésed kulcsszavaival!

Új hozzászólás Aktív témák

#9275 namaste tag

Új Válasz 2015-02-10 18:26:08 #9275
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

Fogyasztás-tudás témában több érv elhangzik, amelyek nem valósak:
-általában ha valamely funkcióhoz több tranzisztor kell, de azt valami miatt nem használjuk, akkor az nem fogyaszt jelentősen többet,
-dupla pontosságú számítások többet fogyasztanak. Igen, ha használjuk, de játékokban nem jellemző. A Hawaii hiába rendelkezik több DP számolóval, ha nem használjuk nem fogyaszt,
-UAV csak egy szoftveres absztrakció, a GCN és a Fermi/Kepler/Maxwell is D3D11-ben max 8 UAV-ot használ, ez nem indokolja a többletfogyasztást.
Ami valós érv lehet:
-memória rendszer, belső busz: 512 bites külső memóriabuszhoz és a meghajtásához több vezérlő tranzisztor szükséges, amelyek terhelés alatt folyamatosan működnek,
-több memóriacsip többet fogyaszt (vagy nem, inkább a memória mérete a meghatározó).
Még valami a fogyasztáshoz: a Green500-as listát egy AMD FirePro S9150-al (Hawaii) szerelt gép vezeti.
Még egy szempont, ha összehasonlítjuk a Keplert és a Maxwellt a fogyasztás-tudás alapján: a Maxwell többet tud, mégis kevesebbet fogyaszt.
Ha az AMD kihoz egy nagyon alacsony fogyasztású Fijit, akkor az AMD fanoknak lesz fontos a teljesítmény-fogyasztás arány, az NV fanok pedig ...
(#9240) gbors
"priorizált adatutak a crossbarban (ugye ebből fakad a 970-es probléma, de maga az ötlet nagyon jó)"
Szerintem nem jó ötlet, és nem ebből fakad a 970-es problémája.
#9280 namaste tag Abu85 #9277

Új Válasz 2015-02-10 21:26:35 #9280
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #9277 üzenetére

A mobilt ne keverd ide, oda sokkal kisebb belső crossbar kell. K1-ben egy SMX, X1-ben két SMM van (plusz a processzorok, videó dekóder, display driver, egyéb I/O, memóriavezérlő: 2x32 bit).
(#9278) HSM
OK, többet fogyaszt, ha ott van a több DP egység, mintha nem lenne ott. De ez nagyon minimális többletfogyasztás, akkor fogyaszt sokat, ha meg is hajtod azokat.
Össze lehet hasonlítani a 780 és a TITAN játék közbeni fogyasztását a TITAN összes DP-egységének engedélyezése mellett. Mennyivel fogyaszt többet a TITAN bekapcsolt, de nem használt DP számolókkal?
Igen, GTX 780/GK110-re gondoltam. A "többet tud" arra vonatkozik amit Abu a #9233-ban írt, a funkcionális tudásra és nem a nyers erőre (több DP).
Nincs a Maxwellnek HPC változata, még. Lesz majd? Nem tudom.
Szerintem nincsenek priorizált adatutak. Semmit se lehet vele nyerni.
#9284 namaste tag gbors #9282

Új Válasz 2015-02-10 23:24:57 #9284
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz gbors #9282 üzenetére

Ha az SMM-eknek van kitüntetett ROP/L2/MC egysége, az megbontja az egész rendszer szimmetriáját, főleg az SMM-ek letiltása esetén.
A működés során egy SMM egyforma eséllyel olvashat adatot mindegyik ROP/L2/MC egység felől, ilyen szempontból szimmetrikus.
Meggyőző lenne egy tesztprogram, ami bizonyítaná a priorizált adatutakat.
Az NV hétfői válasza hihetően magyarázza a működését, a szombati az valóban mismásolós volt.
#12602 namaste tag gbors #12446

Új Válasz 2015-06-07 20:53:17 #12602
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz gbors #12446 üzenetére

A GCN-ben a ROP-ok a Shader Engine-ben, a CU-k mellett vannak és a belső buszra kapcsolódnak. Így a Tahiti 32 ROP és 6x64 bites külső adatbusz párosításában semmi trükk sincs. Az NV csipekben a ROP/L2/MC alkot egy egységet.
Egy HBM modulnak valójában 8 db egymástól teljesen függetlenül működő csatornája van, az 1024 bites adatbusz 8x128 bites.
#20454 namaste tag Z10N #20430

Új Válasz 2016-06-02 23:24:46 #20454
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Z10N #20430 üzenetére

A Perf/Watt arányból nem lehet az IPC-re következtetni, a Perf/freq arányból lehetne.
A Perf/Watt mutatót mihez hasonlítják? Az R9 285 vagy a Nano az etalon? Nem mindegy.
(#20432) Ren Hoek
Grafikánál nincs szoros összefügés, a többi részegység (TEX, ROP) is számít. A számítási feladatok is architektúra és algoritmus függőek.
Az AotS GPU bound nem a GPU kihasználtságot mutatja, hanem hogy mennyit vár CPU a GPU-ra. 50%-os érték jelentése: a CPU parancslistákat küld a GPU-nak, van amikor a CPU vár a GPU-ra, van amikor a GPU vár a CPU-ra, ugyanolyan arányban.
#24038 namaste tag Oliverda #24011

Új Válasz 2016-07-17 23:50:41 #24038
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Oliverda #24011 üzenetére

Ne felejtsd el, hogy a GDDR5X egy órajel alatt kétszer annyi bitet mozgat a csipen belül.
#24040 namaste tag Oliverda #24039

Új Válasz 2016-07-18 00:02:09 #24040
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Oliverda #24039 üzenetére

Ahhoz kétszer annyi energia kell.
#24042 namaste tag Oliverda #24041

Új Válasz 2016-07-18 00:13:50 #24042
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Oliverda #24041 üzenetére

Miért nem?
#24044 namaste tag Oliverda #24043

Új Válasz 2016-07-18 00:19:45 #24044
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Oliverda #24043 üzenetére

De én a csip belsejéről beszélek, a DRAM banktól a kivezetésekig.
#24046 namaste tag Oliverda #24045

Új Válasz 2016-07-18 00:30:55 #24046
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Oliverda #24045 üzenetére

Te a külső buszról.
A csip belsejében, ahogy írtad, 625 MHz (GDDR5X 10 Gbps) ill. 1000 MHz (GDDR5 8 Gbps) az órajel, de csak akkor tudja kiszolgálni a külső busz QDR működését, ha belül kétszer olyan széles az adatvezeték.
#24067 namaste tag Oliverda #24047

Új Válasz 2016-07-18 22:46:59 #24067
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Oliverda #24047 üzenetére

A csip belsejében igen, de a teljes memória fogyasztását nem duplázza.
A külső busz meghajtásához is több energia kell a megnövelt sebesség miatt.
A kisebb feszültség kompenzál annyit, hogy kb. egy szinten van a GDDR5X 10 Gbps és a GDDR5 8 Gbps fogyasztása.
#25389 namaste tag Abu85 #25366

Új Válasz 2016-11-07 21:07:05 #25389
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #25366 üzenetére

Már többször említetted a "memória speciális particionálása"-t és a hogy "a sűrűn használt textúrákat többször is elhelyezik a VRAM-ban". Ezekről van valami forrásod, vagy mért eredményed?
#26246 namaste tag Petykemano #26238

Új Válasz 2017-01-07 21:55:23 #26246
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Petykemano #26238 üzenetére

Nem hiszem, hogy hátrányba kerülne a kevesebb VRAM miatt, a legalább 8 GB HBM2 mindenre elég, a pro változat kap 16 GB-ot, most is csak a 2-3 GB VRAM-mal vannak akadások az új API-kkal.
Szerintem is első körben csak a pro programok fogják használni az SSD-t/rendszer memóriát és nem lesz teljesen automatikus a másolgatás, bele kell kódolni a programba.
#27948 namaste tag Abu85 #27831

Új Válasz 2017-05-01 21:05:23 #27948
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #27831 üzenetére

Mi az a "keresztkötéses"?
"mert van egy GDS a rendszerben, tehát minimum egy gyűrűs buszt kell használni"
Miért tehát? Mutass már valami hiteles bizonyítékot a gyűrűs buszra, sokszor írtad már, de semmi bizonyítékot nem adtál.
"A Vega itt sokat nyer, mert már nem gyűrűs buszt használ, hanem egy NoC-ot, vagyis egy lapkán belüli hálózatot."
Ez semmitmondó, a NoC csak ennyit jelent: Network-on-Chip. Semmit nem mond milyen a topológia, milyen a protokoll, milyen alkatrészekből épül fel, csak annyit, hogy hálózat a csipen.
"több milliószor lassabb"
Erre van valami mérési eredményed?
#27845
A variálható wavefront méret a kis háromszögeken futó pixel shadereken is segít.
Még mindig kételkedek abban, hogy a fogyasztástöbbletet a plusz funkciók okozzák. Ezek a GPU-nak csak nagyon kis része, viszonylag kevés tranzisztor kell hozzá, ráadásul aktívan nem is használják a programok DX11-ben. Most már van AGS, Vulkan és DX12. Tehát se az áramszivárgásból, se a használatból nem lehet többletfogyasztás.
#27949 namaste tag Petykemano #27924

Új Válasz 2017-05-01 22:10:41 #27949
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Petykemano #27924 üzenetére

Ez az "up to 11" poligon elég érdekesen hangzik. Miért nem 8 vagy 12?
"A képernyőt ennek megfelelően 4 részre osztja."
Ez nem így van, ez nagy hülyeség lenne.
(#27941) Ren Hoek
A hardverben kevés FP16-os számoló van, csak a P100-ban és a Tegrákban van kétszeres sebességű FP16.
(#27944) arabus
A Titan Xp int8 és int16 számításokban gyors, FP16-ban nagyon lassú.
#27960 namaste tag Abu85 #27953

Új Válasz 2017-05-02 22:33:38 #27960
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #27953 üzenetére

Ez elég rejtélyes, rákérdezhetek? Keresztkötés = crossbar?
Majd ha lesz publikus infó, elhiszem.
Infinite Fabric - ez csak egy elnevezés, NoC - ez csak egy rövidítés, semmi konkrétum.
A Global Ordered Append leírásában két függvény van, de egyik sem a sorrendben futtatásról szól, hanem globális atomi számlálók.
Ha van minden cégnek meghajtója, majd teszt is lesz, lehet mérni.
#28116 namaste tag Abu85 #27968

Új Válasz 2017-05-04 21:50:25 #28116
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #27968 üzenetére

Na ugye, az Infinite Fabric az marketing név, van mögötte konkrét tartalom, hogy mi, majd meglátjuk. A NoC ilyesmi, az egy rövidítés, bármit jelenthet.
Az atomi memóriaműveleteket nem magában a memóriában végzik, hanem van dedikált hardver az L2 cache-ben, ami biztosítja a sorrendet. Az olyan feladatok, amelyek nem használnak atomi műveleteket, futhatnak párhuzamosan az atomiakkal, nem feltétlenül áll meg minden.
Azért kell mérés, hogy az olyan kijelentéseket mint "több milliószor lassabb" lehessen ellenőrizni. Korábban azt írtad, hogy ezerszer lassabb.
#28157 namaste tag Abu85 #28135

Új Válasz 2017-05-05 22:05:30 #28157
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #28135 üzenetére

Elbeszélünk egymás mellett. Arról írok, ami az NV hardverben megvan és ezekre kell építeni amikor szoftveresen emulálják. Azt is elfogadom, hogy lassabb lesz, a kérdés: mennyivel?
Mi van, ha az összes sorrendet megtartó shadert egy SMX/SM-en futtatják, az atomi műveleteket a Shared Memory(=LDS) segítségével lekezelik. Még mindig kell emuláció, de se L2, se VRAM hozzáférés nem kell.
Kétlem, hogy a sorrend megtartása mellett egy CU-n csak 4 wavefront fusson egyszerre, hiszen ott van a dedikált hardver.
#32700 namaste tag Abu85 #32387

Új Válasz 2017-08-15 23:07:38 #32700
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #32387 üzenetére

Erről egy vicc jut eszembe:
A skalár egység és a vektor egység megy át a hídon. Megszólal a skalár egység: - Vektor egység, hallod hogy fogyasztunk?
#32705 namaste tag Petykemano #32567

Új Válasz 2017-08-16 00:09:00 #32705
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Petykemano #32567 üzenetére

Talán az AVFS nem a fő szabályozó, hanem másodhegedűs és csak vészhelyzetben (pl. leesik a feszültség, magas hőmérséklet) avatkozik be.
#33228 namaste tag lezso6 #33206

Új Válasz 2017-09-26 23:44:04 #33228
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz lezso6 #33206 üzenetére

Tudták mi a gond, ezért az asynchronous compute irányába mozdultak, így munkára lehet fogni a kihasználatlan ALU-kat és meg lehet kerülni a ROP-okat.
(#33210) gbors
Az ACE a compute feladatokat ütemezi, a Shader Engine-ben van a Geometry Processor ami a primitíveket dolgozza fel.
#33236 namaste tag gbors #33230

Új Válasz 2017-09-27 23:36:09 #33236
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz gbors #33230 üzenetére

A Tonga a Tahiti és a Hawaii/Fiji között van a háromszög rajzolás tesztben, de közelebb az erősebb társaihoz. Órajele alacsonyabb, ez 14%-ot megmagyaráz.
#34903 namaste tag Yutani #34896

Új Válasz 2018-03-30 23:27:03 #34903
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Yutani #34896 üzenetére

A memória sávszélesség arányaiban sokkal jobb mint a többi Vega esetén, és jobb mint a Polaris 20/21-é.
Inkább alacsonyabb felbontáson a gyorsabb kártyák relatív teljesítménye esik vissza a CPU limit miatt.
#35455 namaste tag Abu85 #35428

Új Válasz 2018-05-19 21:56:58 #35455
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #35428 üzenetére

A HBM-et is ugyanott gyártják mint a többi DRAM-ot. Az átállás sem két hét, sem két hónap, ilyen hosszú leállás felérne egy árvízzel.
#35436
Nem építenek külön gyártósort egy variánsnak.
(#35439) Petykemano
A GamersNexus szerint 8 GB HBM2 ára ~$120.
#35468 namaste tag Petykemano #35456

Új Válasz 2018-05-20 21:30:27 #35468
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Petykemano #35456 üzenetére

Idén jön a Vega Mobile GPU with HBM2, akár videokártyaként is ki lehetne adni.
(#35460) Abu85
A HBM gyártás legtöbb lépése megegyezik a többi DRAM-éval, hasonlóan épülnek fel. Ami több, az TSV-k kialakítása és a vékonyra csiszolás. De a közös gyártási lépéseket ugyanazokon a gépeken lehet elvégezni.
#35509 namaste tag Abu85 #35502

Új Válasz 2018-05-25 00:00:55 #35509
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #35502 üzenetére

Te nem érted a GPU-k működését. Mindent a skalár egységre akarsz fogni, de minden feladatát elvégzi az NV GPU-kban valamelyik másik részegység. Ami nem a CPU.
Az Intel GPU-k utasításvégrehajtás szempontjából jobban hasonlítanak egy sokmagos, sokszálas SMT7 SIMD CPU-ra, mint a többi GPU-ra.
A GT 1030 nem az, aminek látszik. Elköveted azt a hibát, hogy egy mérést általánosítasz.
#35532 namaste tag Abu85 #35515

Új Válasz 2018-05-25 22:21:53 #35532
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #35515 üzenetére

A bekötési szintek leginkább a darabszámról szólnak, a Tier 1 a Kepler, a Tier 2 a Maxwell és a Pascal részére lett kialakítva.
GT 1030-ra forrás?
#35537 namaste tag Abu85 #35536

Új Válasz 2018-05-27 21:11:24 #35537
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #35536 üzenetére

A skalár egység csak tárolja a leírókat, ugyanezt megteszi a constant cache illetve a textúrázó. Az nem egy nagy terhelés, ha esetleg nem egy helyre kell másolni a leírókat.
Gondoltam, hogy nem fogsz konkrétumot írni.
A techreport egy "gyenge" i7-8700K 6 magos processzorral tesztelt, átlag 20 fps-t kaptak. Ha ez a driver miatt lenne, szerinted a sokszálas CPU bekötés miatt, akkor a GTX 1050 se lett volna jobb, pedig az az RX 460-nal egy szinten van átlagban, igaz a frametime nem jól néz ki.
Ugyancsak techreport teszt, a felsőbb kategóriákban a 1060, 1070, 1070 Ti, 1080, 1080 Ti mind a helyükön vannak.
Az ipon tesztjében a kétmagos G4560 és a négymagos 2200G nagyjából egyformán teljesít, mikor melyik a jobb.
#36539 namaste tag Raggie #36535

Új Válasz 2018-09-02 21:19:57 #36539
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Raggie #36535 üzenetére

A több számítási kapacitás nem kell, hanem csak úgy van. A Vega nem tudja ezt kihasználni DX11-ben, DX12-ben is vegyes a kép, ezért a GTX 1080-nal van egy szinten.

Új hozzászólás Aktív témák

Téma tudnivalók

A topikban az OFF és minden egyéb, nem a témához kapcsolódó hozzászólás gyártása TILOS!

MIELŐTT LINKELNÉL VAGY KÉRDEZNÉL, MINDIG OLVASS KICSIT VISSZA!!

A topik témája:

Az AMD éppen érkező, vagy jövőbeni új grafikus processzorainak kivesézése, lehetőleg minél inkább szakmai keretek között maradva. Architektúra, esélylatolgatás, érdekességek, spekulációk, stb.

Aktív témák

Új prémium hirdetések

Új ingyenes hirdetések

Állásajánlatok

Full stack Laravel fejlesztő

Cég: Promenade Publishing House Kft.

Város: Budapest

Részletek

Diákmunka junior fejlesztő

Cég: Ozeki Kft.

Város: Debrecen

Részletek

LOGOUT.hu - lépj ki, lépj be!

GAMEPOD.hu - játék fórumok

Mobilarena - mobil fórumok

PROHARDVER! - hardver fórumok

IT café - infotech fórumok

FÁRADT GŐZ - közösségi tér szinte bármiről

Blokkméret

Rendezés

Kezdő blokk

Új hozzászólás Aktív témák

Új hozzászólás Aktív témák

LOGOUT.hu - lépj ki, lépj be!

GAMEPOD.hu - játék fórumok

Mobilarena - mobil fórumok

PROHARDVER! - hardver fórumok

IT café - infotech fórumok

FÁRADT GŐZ - közösségi tér szinte bármiről

Blokkméret

Rendezés

Kezdő blokk

Állásajánlatok

Full stack Laravel fejlesztő

Diákmunka junior fejlesztő