[Re:] Vélemény: furcsa erősorrendeket fog okozni a jövőben az Infinity Cache

LOGOUT témák

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD témák

Új hozzászólás Aktív témák

#50 Abu85 HÁZIGAZDA con_di_B #23

Új Válasz 2020-12-20 15:31:12 #50
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz con_di_B #23 üzenetére

Az rég rossz egy GPU-nak, ha a minimum hatékonyságot biztosító érték alá csökken a futtatható wave-ek száma. Ezzel egyetlen mai hardver sem tud mit kezdeni, függetlenül attól, hogy van-e benne nagy cache, vagy sem. Egy Infinity Cache csak segíteni tud ezen a problémán, hiszen bőven le tudja csökkenteni az elérési időt, ezért esetlegesen kevesebb konkurens wave mellett is át lehet lapolni a memóriaelérést, de erre nem igazán érdemes építeni, mert ha nagyon nagy az adott shader regiszter- és LDS-nyomása, akkor az az összes GPU-n kivégzi a teljesítményt. Az RDNA2-n csak nem olyan elképesztően durván, de ez a dizájn is elég rosszul jár.
Az RDNA esetében a GCN-hez képest elég sokat változott a cache-szervezés. Maga az L1 cache az RDNA dizájnban egy új dolog, ami egyszerűen nincs a GCN-ben. Annak is van L1 gyorsítótára, csak annak a megfelelője az RDNA esetében az L0. Ezt a méretes extra L1 cache-t pont azért dobta be az AMD az RDNA-ba, hogy jelentősen növekedjen a cache hit, mert az L2 egy bizonyos ponton túl erre nem volt alkalmas, de pár WGP között megosztani egy L1-et elég jó hatékonyságot ad. És ez egy koherens gyorsítótár, nem úgy, mint a GCN-ben az L1. De csodát ezek a változások nem tudnak tenni, se az extra L1, se az IF. Ami változást hozhat az a dinamikus erőforrás-allokáció, de ahhoz át kellene tervezni a GPU-kat. Elképzelhető, hogy a DXR 1.1 majd rákényszeríti a gyártókat erre, de jelenleg sokkal nagyobb a valószínűsége, hogy a DXR 1.0 és az 1.1 egy zsákutca, amit a Microsoft majd kivált valami "GPU-barátabb" RT API-val. Azért nem valami értékelhető irány az, hogy visszajönnek az übershaderek, illetve nem is lehet majd hardveres koherenciamotort építeni a sugárkövetésre. Talán egy évig jó lesz a DXR 1.1, de nem látom benne a fejleszthetőséget.
#34 arn : Semelyik hardver sem igényel több optimalizálást. Ugyanúgy kell megírni a kódot ezekre. A különbség annyi, hogy a több cache több gyorsulást eredményez. De mint írtam az Assassin's Creed Valhalla is tud gyorsulni 4-7%-ot 4-6 MB-os L2 gyorsítótárral rendelkező GPU-n, csak a Navi 21-en ugyanez a kód 25-29%-ot is érhet. De a fejlesztő számára mindenképpen az számít, hogy minden hardver gyorsul.
#45 con_di_B : Az Infinity Cache hosszabb távon szerintem a chipletre van. Az lesz a lényeg a chipletnél, hogy minél tovább maradjon a feldolgozás az adott chipleten belül, és minél ritkábban menjen ki az adatelérés az I/O lapkába, majd onnan a memóriába. Az Infinity Cache ezt elég jól tudja szolgálni, és akkor elkerülhető a fabric link túlterhelése. Sok előnyt adhat persze most is, de ez sokkal inkább a felkészülés a jövőre.
#49 And01 aktív tag #06658560 #42

Új Válasz 2020-12-20 12:25:09 #49
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

And01

aktív tag

válasz #06658560 #42 üzenetére

Ha tippelni lehet akkor az IF cache most hasznos ugyan, de leginkább a chipletes gpu-k nál lesz rá szükség. A közös memória címtér miatt egy gpu el kell hogy érje a másik gpu-ból az adatot, ameddig ez az adat helyben van a késleltetés kezelhetőbb. De ha az adatokat a rendszermemóriában tároljuk
akkor a brutálisan megnövekvő késleltetés miatt nem hinném hogy kivitelezhető a chipletes megoldás.
#48 Alogonomus őstag con_di_B #47

Új Válasz 2020-12-19 09:50:03 #48
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Alogonomus

őstag

válasz con_di_B #47 üzenetére

Szerintem rosszabbik esetben is legfeljebb annyival nőhet meg a latency, hogy miután az IC-n belül nem találta az adatot, még be kell kérni azt a külső memóriából. Az IC tényleges belső sebessége viszont annyival magasabb, hogy ez észrevehető késést nem nagyon okoz.
Az IC 1664-2214 Gbps sebessége is csak az adattovábbításra vonatkozik. Adatkeresés ennél is még nagyságrenddel gyorsabb lehet.
Ráadásul az IC sebessége valószínűleg szinkronban nő a GPU sebességével, így a húzott kártyák esetén az IC sebessége is arányosan megnő, ami csak még tovább csökkenti a plusz latency értékét.
#47 con_di_B tag MongolZ #46

Új Válasz 2020-12-19 00:38:42 #47
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

con_di_B

tag

válasz MongolZ #46 üzenetére

Az a baj Abu válaszával, hogy félreérthetően fogalmazott, mintha azt sugallaná, hogy nem nőne meg a latency az IC miatt, de valószínűleg megnő (rossz esetben, jó esetben meg csökken), illetve ha megnő, akkor is mindegy, mert a wavefrontos latency hiding majd kisimítja és nem kell leállni várakozni. De ugye ez az amit komplex kerneleknél nem lehet biztosra venni, hogy elég lesz, illetve mondjuk egy átlag 30 ciklusra szétkent átlag latencynél sem mindegy, hogy az most akkor 30 lesz, vagy 45, mondjuk.
#46 MongolZ addikt #06658560 #42

Új Válasz 2020-12-18 15:33:37 #46
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

MongolZ

addikt

válasz #06658560 #42 üzenetére

Szerintem Abu arra gondolt (én legalábbis így értettem), hogy nincs büntetés ahhoz képest, mintha nem lenne IC. És ez teljesen logikus.
#45 con_di_B tag con_di_B #43

Új Válasz 2020-12-17 18:55:10 #45
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

con_di_B

tag

válasz con_di_B #43 üzenetére

Áttúrtam fórumokat gyorsan, szóval igen, VRAM az 1000 ciklus körül van, L1 néhány tíz ciklus, L2-nél sajnos már sokkal nagyobb 100-200 ciklus, annál meg kevesebb biztosan nem lesz az L3, amiről ugye most beszélünk.
Attól ez még lehet egy jó irány összességében, de ha már ennyire elmentünk a részletek szintjére, könnyen el tudom képzelni, hogy ha elköteleződik az L3 mellett az AMD akkor következő RDNA iterációban még reszelgessenek egy kicsit az arányokon, hogy a legrosszabb eset is ki legyen kompenzálva.
Praktikusan két dolog csökkenti le a futtatható wavefronton számát, vagy a lokális memóriahasználat, vagy a regiszterfogyasztás. Azok az algoritmusok, amik értelmesen tudnak lokális memóriát használni, azoknek jellemzően eleve nagyjából mindegy az L3, szóval lapozhatunk. Regiszterből meg senki sem akarna még többet betenni normál esetben, de elképzelhető, hogy de ha mondjuk 1.5x rosszabb a legrosszabb késleltetés, akkor 1.5x annyi regiszter ezt tudja kompenzálni.
Persze GPU-knál általában nem az a szempont, hogy a minimáli késleltetés legyen jó, hanem az, hogy a sávszélesség legyen maximális.
#44 Darmol senior tag #06658560 #42

Új Válasz 2020-12-17 18:34:19 #44
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Darmol

senior tag

válasz #06658560 #42 üzenetére

Azt kérdezted: #2 "mennyi extra ciklus, ami aztán az egész képet blokkolni fogja?"
ABU válasza: #4 "Semennyi. "
#42: "Pont azt kérdeztem eredetileg, mennyi a veszteség, ha nincs találat."
Nem azt kérdezted.
Ha nálad a kettő ugyanaz, akkor nem csoda miért nem érted a választ.
#43 con_di_B tag #06658560 #42

Új Válasz 2020-12-17 18:31:13 #43
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

con_di_B

tag

válasz #06658560 #42 üzenetére

Ezekben tudtommal nincsen pre-emptive fetchelő logika, szóval a legrosszabb eset az a klasszikus felépítéseket figyelembe véve latency to reach SRAM cache + latency to reach DRAM. ÉS fogalmam sincs, melyik, mennyi, de hajlamos lennék elhinni, hogy az első annyival kisebb a másodiknál (mivel ott van a chipen), hogy a gyakorlatban elhanyagolható.
Ha nem ez a helyzet, akkor technikailag lehet olyat is, hogy ha kell ha nem DRAM-hoz mindenképpen nyúlsz (aztán eldobod ami onnan jött, ha már eleve meg volt a cache-ben) de mivel itt nem azért rakták be, hogy néha csökkenjen a késleltetés, hanem azért, hogy NE kelljen a DRAM-hoz nyúlni (sávszél + fogyasztási keret), ezért ezt kizárhatjuk most.
Spekulálok csak persze. Hasracsapós konkrétabb tippre az első késleltetés K x 10 ciklus lehet, a VRAM-nál meg nekem rémlenek ilyen sokszáz ill. akár ezer ciklusos riogatások. (Amit aztán leosztasz a wavefrontok számával és akkor abból jön ki egy tolerálható(bb) átlag.)
#42 #06658560 törölt tag kisfurko #39

Új Válasz 2020-12-17 17:17:26 #42
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#06658560

törölt tag

válasz kisfurko #39 üzenetére

Pont azt kérdeztem eredetileg, mennyi a veszteség, ha nincs találat. ere jön, hogy semmi, mert... Vagyis akkor nem lehetne átlagosan se késleltetést csökkenteni, mert insert ABU válaszát.
#41 ladyka csendes tag Dare2Live #40

Új Válasz 2020-12-17 16:00:31 #41
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ladyka

csendes tag

válasz Dare2Live #40 üzenetére

igaz van némi kompromisszum
[link]
#40 Dare2Live félisten ladyka #35

Új Válasz 2020-12-17 13:40:33 #40
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Dare2Live

félisten

válasz ladyka #35 üzenetére

Nem a full hd a kérdés hanem a full hd + RTX. Első keresés 2080 FHD+RTXU 27-29FPS. AVGben.
[link]
Amúgy egy 3070el már megy. Szuper, hogy 2020 végére eljutottunk oda, hogy FHDban új vgaval megy. Részemről amúgy sokkal inkább 4K mint RTX. Kinek mi.
#39 kisfurko senior tag #06658560 #37

Új Válasz 2020-12-17 13:22:23 #39
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

kisfurko

senior tag

válasz #06658560 #37 üzenetére

Az átlagos késleltetés csökkentésére. Egy GPU jobban el tudja fedni a memória késleltetését, de csodára nem képes. Míg egy CPU max. az aktuális utasítás ablakban tud "párhuzamosítani" (ok, ott az SMT is), addig a GPU SIMD és több "szálat" futtat átfedve.
#38 kisfurko senior tag IgorKGB #33

Új Válasz 2020-12-17 13:14:37 #38
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

kisfurko

senior tag

válasz IgorKGB #33 üzenetére

Ez szinte biztosan a mobil chipekhez van kitalálva. Nem tudom, az IBM próbálkozása óta, történt-e előrelépés "rendes" chipeknél.
#37 #06658560 törölt tag Abu85 #22

Új Válasz 2020-12-17 13:10:41 #37
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#06658560

törölt tag

válasz Abu85 #22 üzenetére

Naa! Tehát nem baj, hogy niccs ott az adat és nem kell tovább menni, mert szerinted akkor az az adat nem lesz később feldolgozva. Akkor mégis minek a cache?
#36 b. félisten ladyka #35

Új Válasz 2020-12-17 12:55:41 #36
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

b.

félisten

válasz ladyka #35 üzenetére

Így van . És nem 4 játékban.
#35 ladyka csendes tag Dare2Live #31

Új Válasz 2020-12-17 12:23:11 #35
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

ladyka

csendes tag

válasz Dare2Live #31 üzenetére

Full hd-n simán elég a 2080s vagy feletti kártya a CP-nel. Atlag 60fps, hez. Nem mondom, hogy ez így jó, de kétségtelen tény, hogy a látvány kárpótol. Én 2080ti al bf5 multit is maxon rtvel játszom. Nekem pl többet ér a plusz látvány mint a pluszfps. (2560×1080p ben)
#34 arn félisten Abu85 #20

Új Válasz 2020-12-17 12:22:45 #34
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

arn

félisten

válasz Abu85 #20 üzenetére

A gyorsulas merteke altalaban a szuk keresztmetszette valo resznek mankozasan ervenyesul, mennyire tudjak elkerulni azt a szituaciot. Az optimalizasnal mennyire tudjak a sajat erdekeiket ervenyesiteni - mindkettore lehet olyan kodot irni, ami neki fekszik, es a jatekot is lehet ugy kialakitani, hogy masikon lassu legyen. A mostani amdnel egyertelmuen a szamitasi kapacitas, savszelesseg sok adat mozgatasanal nvnal meg a memoria merete lehet kritikus. De szvsz az amd megoldasa igenyel tobb optimalizaciot, es kompromisszumosabb megoldasokat, egy 20-24 gigas nvidiatol nem hiszem, hogy erdemben nagyon el tudnak majd lepni. De majd kiderul, hogy ebbol mi jon be a gyakorlatban :)
#33 IgorKGB csendes tag kisfurko #28

Új Válasz 2020-12-17 11:51:58 #33
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

IgorKGB

csendes tag

válasz kisfurko #28 üzenetére

[link]
https://www.zdnet.com/article/samsung-applies-3d-stacking-tech-on-7nm-euv-chips/
#32 Dare2Live félisten kisfurko #29

Új Válasz 2020-12-17 11:21:34 #32
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Dare2Live

félisten

válasz kisfurko #29 üzenetére

"Valószínűleg fele lenne a hőbörgő"
ld nvs höbölgök hszeit. Sztem (elég egyértelmű) cikket el se olvassták csak bejönnek höbölögni. Én meg trollkodok.
#31 Dare2Live félisten Balazs_ #30

Új Válasz 2020-12-17 11:18:46 #31
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Dare2Live

félisten

válasz Balazs_ #30 üzenetére

Szerintem pontosan le is írtad a Controllal. Ott valós hozzáadott értéket ad. Nálam ezen a valós listán 4cím van CP, WD, BF, Control.
Ellenben a WOW és többi RT egy vicc.
És még egy Control, CP....nél is baromi necces az RT mert lehet ad de milyen áron? Képeket megnézni. Megér egy 78/83FPS helyett 33/38fpst? [link]
És ez a 33/38fps nem ám 4K alatt hanem wqhdn. Ja és AVG a min simán 30 alatt.
Nagyon szűk/kevés értelme van az RTnek jelenleg. 4 játék. Brutál FPS drop. És még itt is max akkor ha 3080-3090el rendelkezel. Egy 3060TI/3070nél kb fölös funkció. Csillámpóni. Ehez képest IC, hogy minden címben dob 2-3-4%ot de van ahol 7-13%ot az valós előrelépés. Az ABU által emlegetett 25-29% meg brutál. (Csak ez is olyan mint RT lássam már a címeket.)
#30 Balazs_ senior tag Dare2Live #24

Új Válasz 2020-12-17 10:07:56 #30
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Balazs_

senior tag

válasz Dare2Live #24 üzenetére

Na azért ne ess már át TTomax inverzére - bőven nem 4 játék támogatja "valósan".
Persze lehet vitatkozni arról, hogy hol mennyire hasznos - Controlnál igen sokat hozzáad a játékhoz, WoWban viszont kb. semmit nem ér.
#29 kisfurko senior tag

Új Válasz 2020-12-17 09:41:13 #29
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

kisfurko

senior tag

Valaki tudja, hogy működik ez a G-Buffer helyett háromszög adatok tárolása deferred renderingnél?
A cikk jóval jobb lett volna, ha nem "erősorrendezik", hanem csak bemutatja az Infinity Cache lehetséges következményeit különböző grafikai eljárások esetén. Valószínűleg fele lenne a hőbörgő (felesleges) hozzászólások száma is.
#28 kisfurko senior tag IgorKGB #18

Új Válasz 2020-12-17 09:03:29 #28
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

kisfurko

senior tag

válasz IgorKGB #18 üzenetére

A GPU-k hűtése már most is a határon van. Ha ráteszed a RAM-okat, akkor hogyan hűtöd le? Arról nem is beszélve, hogy bonyolultabb megoldani, mint a HBM-es, interposeres mókát, aztán az is drágának számít jelenleg. Az 1 millió bitet meg hagyjuk is...
#27 Alogonomus őstag Egon #12

Új Válasz 2020-12-16 22:30:20 #27
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Alogonomus

őstag

válasz Egon #12 üzenetére

LOL.
De szeretné a full zöld szemüveges, hogy annak a topiknak a témája minél hamarabb okafogyottá váljon.
Azért remélem elolvastad azt a hozzászólást is, amire én írtam a válaszomat a topikban.
#26 Valdez őstag

Új Válasz 2020-12-16 22:05:48 #26
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Valdez

őstag

Kérdés, hogy milyen távoli jövőről beszélünk. ~0%-os piaci penetrációval, nem létező termékekkel kár ilyen fantáziákat kivetíteni szvsz. Mire mérhető részesedése lesz a 6000-es sorozatnak, már a a következő generáció is túl lesz a maga paper löncsén.
#25 b. félisten Abu85 #20

Új Válasz 2020-12-16 21:29:18 #25
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

b.

félisten

válasz Abu85 #20 üzenetére

Köszi ! Még a minimum növekedés sem rossz adat, már mint a minimumon ezt az 5 -7 % ot értem a 10 az kifejezetten jó, az fölött meg szerintem az AMD támogatott játékok fognak menni szóval ott lehetséges erősorrend változás,de nem lesz jellemző azt gondolom.
Nekem nagyon bejön ez az Infity cache megoldás, egyszerűnek tűnő,de okos fejlesztés.
Igényli az optimalizációt, de manapság már szinte minden, elég káosz a gamer világ az API-k, szabványok, RT, és Konzolok amik hétről hétre változnak.
Mindkét gyártó nagyon jól fejleszt azért és próbál egyedi megoldásokat. GDDR6X is egy jó átmeneti megoldás a HBM és a GDDR6 közé a Micron / Nvidia együttműködésből, az IC is nagyon jó és ötletes megoldás , már a első infók alapán is annak tűnt, főleg RT nél lehetne ezt még jól kihasználni azt gondolom így látatlanba.
ÉN bízok benne hogy átveszi ezt NV valamilyen módon, AMD meg dob gyorsabb ramokat és szélesebb buszt, mert azért az az igazi ha mindkettő jelen van. Szóval kellene egymástól egy kicsi mindkettőbe.
#24 Dare2Live félisten TTomax #17

Új Válasz 2020-12-16 21:27:53 #24
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Dare2Live

félisten

válasz TTomax #17 üzenetére

Ez az 1-3% ugye már most megdőlt.... Már most is többet hoz átlagban.
De sztem te is kevered az RTvel. Az nem most hanem Xéve jött ki aztán valósan támogatja 4cím. Még csillámpóni sem mert annál a 4nél meg van egy 50-60% fps vesztés.
@IgorKGB HBM rég elérhető aztán mégis mindenki GDDR6ot pakol. Ez az egész egy mérlegelés. Hogy hozható ki a köv genből a +20-40% a legolcsobban. Ezért is várjuk sokan, hogy pl GPU is elindul a chiplet irányba. És ha IC ennyit tud hozni sokkal olcsobban mint HMB akkor engem az se lepne meg ha NV mellszélességgel beállna mögé.
#23 con_di_B tag Abu85 #22

Új Válasz 2020-12-16 21:26:41 #23
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

con_di_B

tag

válasz Abu85 #22 üzenetére

Ez egyszerűbb kerneleknél (jellemzően grafikus shaderek) így van, de bonyolultabb GPGPU cuccokkal azért nem konstans 100% occupancy-vel zajlik az élet, szóval azért nem elhanyagolható a késleltetés kérdése.
Szóval itt az jön be, hogy akkor GPU-n is el kéne hinni h van cache, mert eddig a cache itt inkább memory coalescing szerepet töltött be, most meg van miben bízni, hogy még meglesz az legutóbb használt adat valahol.
Amúgy ha elég pénzt feccöl ebbe az AMD akkor a "shader" fordítóval is mehetnek olyan irányba ami kihasználja az IC-t pl. register spillinget (ami klasszikusan hibaként van kezelve) ez pompásan tud gyorsítani, szóval lehet többet spillelni és magasabb occupancyt elérni komplexebb kerneleknél is.
#22 Abu85 HÁZIGAZDA #06658560 #21

Új Válasz 2020-12-16 21:00:58 #22
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz #06658560 #21 üzenetére

Akkor a memóriából beolvassa. De ez nem jár büntetőciklussal, mert ez nem CPU. Amíg van a multiprocesszoron konkurens wave, aminek van adatja, addig mindegy, hogy az éppen adatra váró wave-nek 10, vagy 100 ms-on belül érkezik meg az adat. A GPU egyszerűen tolerálja a késleltetést. Ezért GPU. A CPU-n ez azért gond, mert nem tudja tolerálni a késleltetést. Ha nincs adat a futtatott szálnak, akkor nincs mellette másik száz, amit esetleg be lehet addig tölteni.
#21 #06658560 törölt tag Abu85 #4

Új Válasz 2020-12-16 20:58:23 #21
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#06658560

törölt tag

válasz Abu85 #4 üzenetére

Ha nincs ott a keresett adat akkor mégis hogy készül el a képpel? Mert rendben van, hogy akkor végig fog futni a semmin a komplett folyamat, de valamikor ki kell számolni.
#20 Abu85 HÁZIGAZDA b. #5

Új Válasz 2020-12-16 20:57:03 #20
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz b. #5 üzenetére

Amik vannak címek, például Dirt 5, Star Wars: Squadrons, Assassin's Creed Valhalla, azok igazából mindenen profitálnak a gyorsítótár jó kihasználására fókuszáló leképezőtől. Különböző módon persze, de még egy 2 MB-os L2 gyorsítótárral rendelkező GPU is tud 3-4%-ot gyorsulni egy ilyen optimalizálástól. 128 MB gyorsítótárral nyilván ez sokkal előnyösebb, de maga az optimalizálás minden hardveren sebességnövekedést okoz, csak nem ugyanakkorát. A GA102-re amúgy van adat az AC: Valhallából, 7% pluszt hoz a leképező, annak ellenére, hogy a GA102 nem tartalmaz ám közel sem olyan nagy gyorsítótárat, mint a Navi 21. Ha a Valhalla a régi leképezőt használná, akkor konkrétan 7%-kal lassabb lenne a GA102 GPU-n. Szóval ez a teljes piacon egy hasznos technológia. A probléma az, hogy be kell építeni, aminek van R&D költsége, és időbe is kerül.
Van az Infinity Cache-re egy szervizkönyvtár, de az AMD nem adta még ki. Talán sose fogják. De meg tudják csinálni azt, hogy a program kontrollálja teljesen, hogy mi kerül bele. A gond ezzel az, hogy az eseten úgy 95%-ában nem gyorsabb, mintha szimplán csak cache-selnek. Pár kiugró eset van, ami nem biztos, hogy megéri egy szoftverkörnyezet publikálását. Ha valamelyik fejlesztő nagyon szeretné, akkor elkérheti szerintem, de nem vagyok meggyőződve arról, hogy az AMD tömegesen látná azokat a megoldásokat, amelyek direkten kezelik ezt a gyorsítótárat.
#13 arn : Tudja az optimalizálást minden hardver hasznosítani, csak a cache mérete meghatározza a sebességnövekedést. A gigantikus gyorsítótárral nem rendelkező VGA-k az ilyen leképezőktől olyan 5-7%-ot tudnak gyorsulni nagyobb átlagban. Valamelyik persze lehet, hogy kicsit többet, vagy kicsit kevesebbet.
#19 flexxx2 őstag

Új Válasz 2020-12-16 20:53:38 #19
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

flexxx2

őstag

Én azért örülnék ha elterjedne, akkor nvidia is meglépné. Arról lehet tudni, hogy az unreal motor fogja használni az IC-t? Az mindjárt sokat dobna az elterjedésen.
#18 IgorKGB csendes tag Dare2Live #16

Új Válasz 2020-12-16 20:48:27 #18
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

IgorKGB

csendes tag

válasz Dare2Live #16 üzenetére

a következő generációnál már 3d-s tokozás jön, a memória lesz a cache, rajt lesz a chip tetején , akár 1 millió bitnél is szélesebb adatbusszal, ez az infinity cache gyorsan eltűnik
#17 TTomax félisten Dare2Live #15

Új Válasz 2020-12-16 20:39:22 #17
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

TTomax

félisten

válasz Dare2Live #15 üzenetére

Ez is pontosan ennyit fog dobni..itt-ott...1-3%ot... ugyanaz a sorsa...szokásos amds csillámpóni...
#16 Dare2Live félisten

Új Válasz 2020-12-16 20:32:51 #16
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Dare2Live

félisten

Amúgy nem lepne meg ha köv gennél NV karikban is megjelenne a cache. Ha támogatják +20-30% elképesztően sokat számít.
#15 Dare2Live félisten Egon #12

Új Válasz 2020-12-16 20:31:12 #15
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Dare2Live

félisten

válasz Egon #12 üzenetére

"Majd egy huszonpár százalékos össz piaci részesedéssel rendelkező (ebből ráadásul igen kis részt tesznek ki az újgenerációs kártyák, amiből már mind a három legyártott darab el is kelt... ) gyártó megoldásaira fognak koncentrálni a játékfejlesztők, jah... Lesz majd vagy féltucat cím, amit bír finanszírozni az AMD, és annyi."
Csak pl kedvéért Hitman 2 2018as cím. Még véletlen se úgy írodott, hogy támogassa az ICt. Mégis +8% dob IC FPSben. Minden régi címen gyorsít, max annyi, hogy csak pár %ot. pl DOOMon csak +2%ot. De pl Forza 4en +13%ot dob. Az is 2018as cím...
Amiről ABU írt az az, hogy amely játék ténylegesen támogatja ott jöhet ki ez a brutál 20%+os gyorsulás.
Oh wait nem lehet, hogy összekevered ICt az RTvel amit megjelnése után x évvel elvileg támogat ~20játék gyakorlatban meg 4. És annál a 4nél sincs sok értelme a 40-60%os fps visszaesés miatt?
#14 b. félisten arn #13

Új Válasz 2020-12-16 20:26:39 #14
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

b.

félisten

válasz arn #13 üzenetére

+1
#13 arn félisten

Új Válasz 2020-12-16 20:15:11 #13
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

arn

félisten

szvsz nem az a kerdes, hogy az amd milyen architekturalis elonyoket hoz, hanem az, hogy tudja e azt kamatoztatni a kulonbozo portoknal. vagy megforditva... az nvidia tudja e.
#12 Egon nagyúr Alogonomus #8

Új Válasz 2020-12-16 19:59:57 #12
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Egon

nagyúr

válasz Alogonomus #8 üzenetére

LOL.
Az egy dolog, ha valaki (adatlapja és megnyilvánulásai alapján full vörös szemüveggel) leír egy csacskaságot egy, amúgy már az alaptémát tekintve okafogyottá vált topicban - de hogy még reklámozza is, az már minősített eset...
Behozhatatlan hátrány, jah...
A cikk meg csak a szokásos Abu-féle agymenés. Majd egy huszonpár százalékos össz piaci részesedéssel rendelkező (ebből ráadásul igen kis részt tesznek ki az újgenerációs kártyák, amiből már mind a három legyártott darab el is kelt... ) gyártó megoldásaira fognak koncentrálni a játékfejlesztők, jah... Lesz majd vagy féltucat cím, amit bír finanszírozni az AMD, és annyi.
#11 MaraTóni tag

Új Válasz 2020-12-16 19:59:33 #11
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

MaraTóni

tag

hát persze, AMD féle "csodafegyver"... majd 5 év múlva talán lesz értelme, mikor már amúgy is minden gyártó belerakja hardvereibe a hasonló megoldást...
A Valhalla-t meg inkább ne hozzuk fel példának, gyakorlatilag változatlan grafika az Odessy-hez képest, 10-15%-al lassabban...(ennek a csodamódosításnak köszönhetően így már érthető a Radeonok soványka előnye). gratulálunk az UBInak, csak a szokásos...
#10 b. félisten paprobert #9

Új Válasz 2020-12-16 19:26:01 #10
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

b.

félisten

válasz paprobert #9 üzenetére

Ah ez érdekes nem tudtam.
#9 paprobert őstag b. #7

Új Válasz 2020-12-16 19:21:50 #9
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

paprobert

őstag

válasz b. #7 üzenetére

Az XB360 kapott dedikált RAM modult a tokozásba, szerették a fejlesztők, gyorsult tőle a rendszer.
Az XB1 ezt tovább vitte eggyel, chip-be integrált megoldást hozott a Microsoft. Ennek ellenére hozzá se nyúltak a fejlesztők, pedig előnye lett volna.
#8 Alogonomus őstag

Új Válasz 2020-12-16 19:11:46 #8
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Alogonomus

őstag

Mintha megéreztem volna Abu délutáni cikkének a témáját.
#7 b. félisten paprobert #6

Új Válasz 2020-12-16 19:09:34 #7
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

b.

félisten

válasz paprobert #6 üzenetére

Igen kettős busszal gondoltam, ahogy Nvidia tervezi az MCM dizájnt. Gondolom valamivel lassabb lehetne de HBM ram egybe tokozva van a GPU Val. Persze csak fantáziaként, nem vagyok tervező azért kérdezem.
#6 paprobert őstag b. #5

Új Válasz 2020-12-16 19:06:13 #6
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

paprobert

őstag

válasz b. #5 üzenetére

"Amúgy erre az Infinity cahe dologra , a fedélzeti tárból nem lehet elkülöníteni?"
Attól, hogy logikailag szegmentálod, attól még VRAM marad a VRAM, és a sebessége is ugyanaz marad.
Egyébként érdekes kérdés, hogy miért hozta ezt most az AMD.
Szerintem azért, mert az RDNA van annyira helytakarékos hogy kivitelezhetővé vált mérsékelt GPU méret mellett, illetve a GDDR6X ára miatt anyagilag is belefér a brute-force cache.
Fel lehet ezt úgy is fogni, hogy beköltözött a chip-be a memória-alrendszer egy szelete.
#4 Abu85
Ezek az optimalizációk léteznek, a konzolok határáig. Ami kimerül a szokványos pár MB-os gyorsítótárakban, amit még az Nvidia kártyái is fel tudnak mutatni.
Itt a kérdés az volt, hogy lesz-e általános fejlesztői tendencia a cache-nehéz motorok irányába.
Mindenen jól kell futnia a játéknak, így ez biztosan nem lesz prioritás.
#5 b. félisten Abu85 #4

Új Válasz 2020-12-16 19:01:47 #5
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

b.

félisten

válasz Abu85 #4 üzenetére

Hát igen csak a konzolok túlmutatnak a jelelegi Dx 12/ vulkan szintjén főleg a Ps esetében. Valószínűleg az lesz hogy AMD-s címekben ott lesz ez az előny amiből valamennyit profitálnak majd a más gyártók GPU -i is nem?
Amúgy erre az Infinity cahe dologra , a fedélzeti tárból nem lehet elkülöníteni ? mint régen , hogy betöltöttük a Az enemy teritoryt a ramba.
nem lehetséges egy rohadt gyors beépített HBM / GDDR ram ami nem a buszra van csak kötve hanem a GPU ra is kettős csatornán? és mellé GDDR? Normal esetben sima Vram aktivált esetben meg egy hatalmas gyors L3.vagy csak szimplán lenne egy GDDR modul ilyen 12 GB +1 -ként?
Az I/O ezt egyébként nem tudja megoldani, ha nem is ilyen gyors módon?
#4 Abu85 HÁZIGAZDA #06658560 #2

Új Válasz 2020-12-16 18:54:00 #4
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz #06658560 #2 üzenetére

Semennyi. Ha nincs találat, akkor is van wavefront, ami futhat. A GPU-k nem CPU-k, nem érdemes rájuk CPU-ként gondolni.
#1 paprobert : A konzolokban ezeket az optimalizálásokat már sokkal régebb óta alkalmazzák. Egyszerűen megéri ezekkel nyerni +10%-ot.
#3 IgorKGB csendes tag

Új Válasz 2020-12-16 18:52:38 #3
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

IgorKGB

csendes tag

valamiért nem lett olyan hatékony mint ahogy várható lett volna , 2.5 TB/sec a sávszélessége és keptelen odaverni az 1 TB/s alatti nvidianak, pedig elméleti számítások alapján raytracingben le kellett volna nyomnia, hisz az csak sávszélesség limites
#2 #06658560 törölt tag

Új Válasz 2020-12-16 18:29:09 #2
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#06658560

törölt tag

Azt lehet tudni, mennyi a büntetése az IC-nek, ha nincs benne a keresett adat és így ki kell a rendszernek slattyogni a grafikai RAM-ba az adatért?mennyi extra ciklus, ami aztán az egész képet blokkolni fogja?
#1 paprobert őstag

Új Válasz 2020-12-16 18:05:35 #1
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

paprobert

őstag

Mivel a konzolokban nincs Infinity Cache, teljesen véletlenszerű lesz, hogy feküdni fog-e az adott motor az architektúrának, vagy nem.
Ha lett volna a konzolokban, ez lett volna a kulcs a teljesítményhez... de nincs.