Új hozzászólás Aktív témák
-
Abu85
HÁZIGAZDA
Az rég rossz egy GPU-nak, ha a minimum hatékonyságot biztosító érték alá csökken a futtatható wave-ek száma. Ezzel egyetlen mai hardver sem tud mit kezdeni, függetlenül attól, hogy van-e benne nagy cache, vagy sem. Egy Infinity Cache csak segíteni tud ezen a problémán, hiszen bőven le tudja csökkenteni az elérési időt, ezért esetlegesen kevesebb konkurens wave mellett is át lehet lapolni a memóriaelérést, de erre nem igazán érdemes építeni, mert ha nagyon nagy az adott shader regiszter- és LDS-nyomása, akkor az az összes GPU-n kivégzi a teljesítményt. Az RDNA2-n csak nem olyan elképesztően durván, de ez a dizájn is elég rosszul jár.
Az RDNA esetében a GCN-hez képest elég sokat változott a cache-szervezés. Maga az L1 cache az RDNA dizájnban egy új dolog, ami egyszerűen nincs a GCN-ben. Annak is van L1 gyorsítótára, csak annak a megfelelője az RDNA esetében az L0. Ezt a méretes extra L1 cache-t pont azért dobta be az AMD az RDNA-ba, hogy jelentősen növekedjen a cache hit, mert az L2 egy bizonyos ponton túl erre nem volt alkalmas, de pár WGP között megosztani egy L1-et elég jó hatékonyságot ad. És ez egy koherens gyorsítótár, nem úgy, mint a GCN-ben az L1. De csodát ezek a változások nem tudnak tenni, se az extra L1, se az IF. Ami változást hozhat az a dinamikus erőforrás-allokáció, de ahhoz át kellene tervezni a GPU-kat. Elképzelhető, hogy a DXR 1.1 majd rákényszeríti a gyártókat erre, de jelenleg sokkal nagyobb a valószínűsége, hogy a DXR 1.0 és az 1.1 egy zsákutca, amit a Microsoft majd kivált valami "GPU-barátabb" RT API-val. Azért nem valami értékelhető irány az, hogy visszajönnek az übershaderek, illetve nem is lehet majd hardveres koherenciamotort építeni a sugárkövetésre. Talán egy évig jó lesz a DXR 1.1, de nem látom benne a fejleszthetőséget.
#34 arn : Semelyik hardver sem igényel több optimalizálást. Ugyanúgy kell megírni a kódot ezekre. A különbség annyi, hogy a több cache több gyorsulást eredményez. De mint írtam az Assassin's Creed Valhalla is tud gyorsulni 4-7%-ot 4-6 MB-os L2 gyorsítótárral rendelkező GPU-n, csak a Navi 21-en ugyanez a kód 25-29%-ot is érhet. De a fejlesztő számára mindenképpen az számít, hogy minden hardver gyorsul.
#45 con_di_B : Az Infinity Cache hosszabb távon szerintem a chipletre van. Az lesz a lényeg a chipletnél, hogy minél tovább maradjon a feldolgozás az adott chipleten belül, és minél ritkábban menjen ki az adatelérés az I/O lapkába, majd onnan a memóriába. Az Infinity Cache ezt elég jól tudja szolgálni, és akkor elkerülhető a fabric link túlterhelése. Sok előnyt adhat persze most is, de ez sokkal inkább a felkészülés a jövőre.
-
And01
aktív tag
válasz
#06658560 #42 üzenetére
Ha tippelni lehet akkor az IF cache most hasznos ugyan, de leginkább a chipletes gpu-k nál lesz rá szükség. A közös memória címtér miatt egy gpu el kell hogy érje a másik gpu-ból az adatot, ameddig ez az adat helyben van a késleltetés kezelhetőbb. De ha az adatokat a rendszermemóriában tároljuk
akkor a brutálisan megnövekvő késleltetés miatt nem hinném hogy kivitelezhető a chipletes megoldás. -
Alogonomus
őstag
Szerintem rosszabbik esetben is legfeljebb annyival nőhet meg a latency, hogy miután az IC-n belül nem találta az adatot, még be kell kérni azt a külső memóriából. Az IC tényleges belső sebessége viszont annyival magasabb, hogy ez észrevehető késést nem nagyon okoz.
Az IC 1664-2214 Gbps sebessége is csak az adattovábbításra vonatkozik. Adatkeresés ennél is még nagyságrenddel gyorsabb lehet.
Ráadásul az IC sebessége valószínűleg szinkronban nő a GPU sebességével, így a húzott kártyák esetén az IC sebessége is arányosan megnő, ami csak még tovább csökkenti a plusz latency értékét. -
con_di_B
tag
Az a baj Abu válaszával, hogy félreérthetően fogalmazott, mintha azt sugallaná, hogy nem nőne meg a latency az IC miatt, de valószínűleg megnő (rossz esetben, jó esetben meg csökken), illetve ha megnő, akkor is mindegy, mert a wavefrontos latency hiding majd kisimítja és nem kell leállni várakozni. De ugye ez az amit komplex kerneleknél nem lehet biztosra venni, hogy elég lesz, illetve mondjuk egy átlag 30 ciklusra szétkent átlag latencynél sem mindegy, hogy az most akkor 30 lesz, vagy 45, mondjuk.
-
con_di_B
tag
Áttúrtam fórumokat gyorsan, szóval igen, VRAM az 1000 ciklus körül van, L1 néhány tíz ciklus, L2-nél sajnos már sokkal nagyobb 100-200 ciklus, annál meg kevesebb biztosan nem lesz az L3, amiről ugye most beszélünk.
Attól ez még lehet egy jó irány összességében, de ha már ennyire elmentünk a részletek szintjére, könnyen el tudom képzelni, hogy ha elköteleződik az L3 mellett az AMD akkor következő RDNA iterációban még reszelgessenek egy kicsit az arányokon, hogy a legrosszabb eset is ki legyen kompenzálva.
Praktikusan két dolog csökkenti le a futtatható wavefronton számát, vagy a lokális memóriahasználat, vagy a regiszterfogyasztás. Azok az algoritmusok, amik értelmesen tudnak lokális memóriát használni, azoknek jellemzően eleve nagyjából mindegy az L3, szóval lapozhatunk. Regiszterből meg senki sem akarna még többet betenni normál esetben, de elképzelhető, hogy de ha mondjuk 1.5x rosszabb a legrosszabb késleltetés, akkor 1.5x annyi regiszter ezt tudja kompenzálni.
Persze GPU-knál általában nem az a szempont, hogy a minimáli késleltetés legyen jó, hanem az, hogy a sávszélesség legyen maximális.
-
Darmol
senior tag
válasz
#06658560 #42 üzenetére
Azt kérdezted: #2 "mennyi extra ciklus, ami aztán az egész képet blokkolni fogja?"
ABU válasza: #4 "Semennyi. "
#42: "Pont azt kérdeztem eredetileg, mennyi a veszteség, ha nincs találat."Nem azt kérdezted.
Ha nálad a kettő ugyanaz, akkor nem csoda miért nem érted a választ. -
con_di_B
tag
válasz
#06658560 #42 üzenetére
Ezekben tudtommal nincsen pre-emptive fetchelő logika, szóval a legrosszabb eset az a klasszikus felépítéseket figyelembe véve latency to reach SRAM cache + latency to reach DRAM. ÉS fogalmam sincs, melyik, mennyi, de hajlamos lennék elhinni, hogy az első annyival kisebb a másodiknál (mivel ott van a chipen), hogy a gyakorlatban elhanyagolható.
Ha nem ez a helyzet, akkor technikailag lehet olyat is, hogy ha kell ha nem DRAM-hoz mindenképpen nyúlsz (aztán eldobod ami onnan jött, ha már eleve meg volt a cache-ben) de mivel itt nem azért rakták be, hogy néha csökkenjen a késleltetés, hanem azért, hogy NE kelljen a DRAM-hoz nyúlni (sávszél + fogyasztási keret), ezért ezt kizárhatjuk most.
Spekulálok csak persze. Hasracsapós konkrétabb tippre az első késleltetés K x 10 ciklus lehet, a VRAM-nál meg nekem rémlenek ilyen sokszáz ill. akár ezer ciklusos riogatások. (Amit aztán leosztasz a wavefrontok számával és akkor abból jön ki egy tolerálható(bb) átlag.)
-
-
-
ladyka
csendes tag
-
arn
félisten
A gyorsulas merteke altalaban a szuk keresztmetszette valo resznek mankozasan ervenyesul, mennyire tudjak elkerulni azt a szituaciot. Az optimalizasnal mennyire tudjak a sajat erdekeiket ervenyesiteni - mindkettore lehet olyan kodot irni, ami neki fekszik, es a jatekot is lehet ugy kialakitani, hogy masikon lassu legyen. A mostani amdnel egyertelmuen a szamitasi kapacitas, savszelesseg sok adat mozgatasanal nvnal meg a memoria merete lehet kritikus. De szvsz az amd megoldasa igenyel tobb optimalizaciot, es kompromisszumosabb megoldasokat, egy 20-24 gigas nvidiatol nem hiszem, hogy erdemben nagyon el tudnak majd lepni. De majd kiderul, hogy ebbol mi jon be a gyakorlatban :)
-
Dare2Live
félisten
Szerintem pontosan le is írtad a Controllal. Ott valós hozzáadott értéket ad. Nálam ezen a valós listán 4cím van CP, WD, BF, Control.
Ellenben a WOW és többi RT egy vicc.És még egy Control, CP....nél is baromi necces az RT mert lehet ad de milyen áron? Képeket megnézni. Megér egy 78/83FPS helyett 33/38fpst? [link]
És ez a 33/38fps nem ám 4K alatt hanem wqhdn. Ja és AVG a min simán 30 alatt.Nagyon szűk/kevés értelme van az RTnek jelenleg. 4 játék. Brutál FPS drop. És még itt is max akkor ha 3080-3090el rendelkezel. Egy 3060TI/3070nél kb fölös funkció. Csillámpóni. Ehez képest IC, hogy minden címben dob 2-3-4%ot de van ahol 7-13%ot az valós előrelépés. Az ABU által emlegetett 25-29% meg brutál. (Csak ez is olyan mint RT lássam már a címeket.)
-
Balazs_
senior tag
válasz
Dare2Live #24 üzenetére
Na azért ne ess már át TTomax inverzére - bőven nem 4 játék támogatja "valósan".
Persze lehet vitatkozni arról, hogy hol mennyire hasznos - Controlnál igen sokat hozzáad a játékhoz, WoWban viszont kb. semmit nem ér. -
Valaki tudja, hogy működik ez a G-Buffer helyett háromszög adatok tárolása deferred renderingnél?
A cikk jóval jobb lett volna, ha nem "erősorrendezik", hanem csak bemutatja az Infinity Cache lehetséges következményeit különböző grafikai eljárások esetén. Valószínűleg fele lenne a hőbörgő (felesleges) hozzászólások száma is. -
-
Valdez
őstag
Kérdés, hogy milyen távoli jövőről beszélünk. ~0%-os piaci penetrációval, nem létező termékekkel kár ilyen fantáziákat kivetíteni szvsz. Mire mérhető részesedése lesz a 6000-es sorozatnak, már a a következő generáció is túl lesz a maga paper löncsén.
-
Köszi ! Még a minimum növekedés sem rossz adat, már mint a minimumon ezt az 5 -7 % ot értem a 10 az kifejezetten jó, az fölött meg szerintem az AMD támogatott játékok fognak menni szóval ott lehetséges erősorrend változás,de nem lesz jellemző azt gondolom.
Nekem nagyon bejön ez az Infity cache megoldás, egyszerűnek tűnő,de okos fejlesztés.
Igényli az optimalizációt, de manapság már szinte minden, elég káosz a gamer világ az API-k, szabványok, RT, és Konzolok amik hétről hétre változnak.
Mindkét gyártó nagyon jól fejleszt azért és próbál egyedi megoldásokat. GDDR6X is egy jó átmeneti megoldás a HBM és a GDDR6 közé a Micron / Nvidia együttműködésből, az IC is nagyon jó és ötletes megoldás , már a első infók alapán is annak tűnt, főleg RT nél lehetne ezt még jól kihasználni azt gondolom így látatlanba.
ÉN bízok benne hogy átveszi ezt NV valamilyen módon, AMD meg dob gyorsabb ramokat és szélesebb buszt, mert azért az az igazi ha mindkettő jelen van. Szóval kellene egymástól egy kicsi mindkettőbe. -
Dare2Live
félisten
Ez az 1-3% ugye már most megdőlt.... Már most is többet hoz átlagban.
De sztem te is kevered az RTvel. Az nem most hanem Xéve jött ki aztán valósan támogatja 4cím. Még csillámpóni sem mert annál a 4nél meg van egy 50-60% fps vesztés.
@IgorKGB HBM rég elérhető aztán mégis mindenki GDDR6ot pakol. Ez az egész egy mérlegelés. Hogy hozható ki a köv genből a +20-40% a legolcsobban. Ezért is várjuk sokan, hogy pl GPU is elindul a chiplet irányba. És ha IC ennyit tud hozni sokkal olcsobban mint HMB akkor engem az se lepne meg ha NV mellszélességgel beállna mögé.
-
con_di_B
tag
Ez egyszerűbb kerneleknél (jellemzően grafikus shaderek) így van, de bonyolultabb GPGPU cuccokkal azért nem konstans 100% occupancy-vel zajlik az élet, szóval azért nem elhanyagolható a késleltetés kérdése.
Szóval itt az jön be, hogy akkor GPU-n is el kéne hinni h van cache, mert eddig a cache itt inkább memory coalescing szerepet töltött be, most meg van miben bízni, hogy még meglesz az legutóbb használt adat valahol.
Amúgy ha elég pénzt feccöl ebbe az AMD akkor a "shader" fordítóval is mehetnek olyan irányba ami kihasználja az IC-t pl. register spillinget (ami klasszikusan hibaként van kezelve) ez pompásan tud gyorsítani, szóval lehet többet spillelni és magasabb occupancyt elérni komplexebb kerneleknél is.
-
Abu85
HÁZIGAZDA
válasz
#06658560 #21 üzenetére
Akkor a memóriából beolvassa. De ez nem jár büntetőciklussal, mert ez nem CPU. Amíg van a multiprocesszoron konkurens wave, aminek van adatja, addig mindegy, hogy az éppen adatra váró wave-nek 10, vagy 100 ms-on belül érkezik meg az adat. A GPU egyszerűen tolerálja a késleltetést. Ezért GPU. A CPU-n ez azért gond, mert nem tudja tolerálni a késleltetést. Ha nincs adat a futtatott szálnak, akkor nincs mellette másik száz, amit esetleg be lehet addig tölteni.
-
Abu85
HÁZIGAZDA
Amik vannak címek, például Dirt 5, Star Wars: Squadrons, Assassin's Creed Valhalla, azok igazából mindenen profitálnak a gyorsítótár jó kihasználására fókuszáló leképezőtől. Különböző módon persze, de még egy 2 MB-os L2 gyorsítótárral rendelkező GPU is tud 3-4%-ot gyorsulni egy ilyen optimalizálástól. 128 MB gyorsítótárral nyilván ez sokkal előnyösebb, de maga az optimalizálás minden hardveren sebességnövekedést okoz, csak nem ugyanakkorát. A GA102-re amúgy van adat az AC: Valhallából, 7% pluszt hoz a leképező, annak ellenére, hogy a GA102 nem tartalmaz ám közel sem olyan nagy gyorsítótárat, mint a Navi 21. Ha a Valhalla a régi leképezőt használná, akkor konkrétan 7%-kal lassabb lenne a GA102 GPU-n. Szóval ez a teljes piacon egy hasznos technológia. A probléma az, hogy be kell építeni, aminek van R&D költsége, és időbe is kerül.
Van az Infinity Cache-re egy szervizkönyvtár, de az AMD nem adta még ki. Talán sose fogják. De meg tudják csinálni azt, hogy a program kontrollálja teljesen, hogy mi kerül bele. A gond ezzel az, hogy az eseten úgy 95%-ában nem gyorsabb, mintha szimplán csak cache-selnek. Pár kiugró eset van, ami nem biztos, hogy megéri egy szoftverkörnyezet publikálását. Ha valamelyik fejlesztő nagyon szeretné, akkor elkérheti szerintem, de nem vagyok meggyőződve arról, hogy az AMD tömegesen látná azokat a megoldásokat, amelyek direkten kezelik ezt a gyorsítótárat.
#13 arn : Tudja az optimalizálást minden hardver hasznosítani, csak a cache mérete meghatározza a sebességnövekedést. A gigantikus gyorsítótárral nem rendelkező VGA-k az ilyen leképezőktől olyan 5-7%-ot tudnak gyorsulni nagyobb átlagban. Valamelyik persze lehet, hogy kicsit többet, vagy kicsit kevesebbet.
-
flexxx2
őstag
Én azért örülnék ha elterjedne, akkor nvidia is meglépné. Arról lehet tudni, hogy az unreal motor fogja használni az IC-t? Az mindjárt sokat dobna az elterjedésen.
-
Dare2Live
félisten
Amúgy nem lepne meg ha köv gennél NV karikban is megjelenne a cache. Ha támogatják +20-30% elképesztően sokat számít.
-
Dare2Live
félisten
"Majd egy huszonpár százalékos össz piaci részesedéssel rendelkező (ebből ráadásul igen kis részt tesznek ki az újgenerációs kártyák, amiből már mind a három legyártott darab el is kelt...
) gyártó megoldásaira fognak koncentrálni a játékfejlesztők, jah... Lesz majd vagy féltucat cím, amit bír finanszírozni az AMD, és annyi."
Csak pl kedvéért Hitman 2 2018as cím. Még véletlen se úgy írodott, hogy támogassa az ICt. Mégis +8% dob IC FPSben. Minden régi címen gyorsít, max annyi, hogy csak pár %ot. pl DOOMon csak +2%ot. De pl Forza 4en +13%ot dob. Az is 2018as cím...
Amiről ABU írt az az, hogy amely játék ténylegesen támogatja ott jöhet ki ez a brutál 20%+os gyorsulás.Oh wait nem lehet, hogy összekevered ICt az RTvel amit megjelnése után x évvel elvileg támogat ~20játék gyakorlatban meg 4. És annál a 4nél sincs sok értelme a 40-60%os fps visszaesés miatt?
-
arn
félisten
szvsz nem az a kerdes, hogy az amd milyen architekturalis elonyoket hoz, hanem az, hogy tudja e azt kamatoztatni a kulonbozo portoknal. vagy megforditva... az nvidia tudja e.
-
Egon
nagyúr
válasz
Alogonomus #8 üzenetére
LOL.
Az egy dolog, ha valaki (adatlapja és megnyilvánulásai alapján full vörös szemüveggel) leír egy csacskaságot egy, amúgy már az alaptémát tekintve okafogyottá vált topicban - de hogy még reklámozza is, az már minősített eset...
Behozhatatlan hátrány, jah...
A cikk meg csak a szokásos Abu-féle agymenés. Majd egy huszonpár százalékos össz piaci részesedéssel rendelkező (ebből ráadásul igen kis részt tesznek ki az újgenerációs kártyák, amiből már mind a három legyártott darab el is kelt...) gyártó megoldásaira fognak koncentrálni a játékfejlesztők, jah... Lesz majd vagy féltucat cím, amit bír finanszírozni az AMD, és annyi.
-
MaraTóni
tag
hát persze, AMD féle "csodafegyver"... majd 5 év múlva talán lesz értelme, mikor már amúgy is minden gyártó belerakja hardvereibe a hasonló megoldást...
A Valhalla-t meg inkább ne hozzuk fel példának, gyakorlatilag változatlan grafika az Odessy-hez képest, 10-15%-al lassabban...(ennek a csodamódosításnak köszönhetően így már érthető a Radeonok soványka előnye). gratulálunk az UBInak, csak a szokásos... -
Alogonomus
őstag
Mintha megéreztem volna Abu délutáni cikkének a témáját.
-
paprobert
őstag
"Amúgy erre az Infinity cahe dologra , a fedélzeti tárból nem lehet elkülöníteni?"
Attól, hogy logikailag szegmentálod, attól még VRAM marad a VRAM, és a sebessége is ugyanaz marad.Egyébként érdekes kérdés, hogy miért hozta ezt most az AMD.
Szerintem azért, mert az RDNA van annyira helytakarékos hogy kivitelezhetővé vált mérsékelt GPU méret mellett, illetve a GDDR6X ára miatt anyagilag is belefér a brute-force cache.
Fel lehet ezt úgy is fogni, hogy beköltözött a chip-be a memória-alrendszer egy szelete.#4 Abu85
Ezek az optimalizációk léteznek, a konzolok határáig. Ami kimerül a szokványos pár MB-os gyorsítótárakban, amit még az Nvidia kártyái is fel tudnak mutatni.
Itt a kérdés az volt, hogy lesz-e általános fejlesztői tendencia a cache-nehéz motorok irányába.
Mindenen jól kell futnia a játéknak, így ez biztosan nem lesz prioritás. -
Hát igen csak a konzolok túlmutatnak a jelelegi Dx 12/ vulkan szintjén főleg a Ps esetében. Valószínűleg az lesz hogy AMD-s címekben ott lesz ez az előny amiből valamennyit profitálnak majd a más gyártók GPU -i is nem?
Amúgy erre az Infinity cahe dologra , a fedélzeti tárból nem lehet elkülöníteni ? mint régen , hogy betöltöttük a Az enemy teritoryt a ramba.
nem lehetséges egy rohadt gyors beépített HBM / GDDR ram ami nem a buszra van csak kötve hanem a GPU ra is kettős csatornán? és mellé GDDR? Normal esetben sima Vram aktivált esetben meg egy hatalmas gyors L3.vagy csak szimplán lenne egy GDDR modul ilyen 12 GB +1 -ként?
Az I/O ezt egyébként nem tudja megoldani, ha nem is ilyen gyors módon? -
-
IgorKGB
csendes tag
valamiért nem lett olyan hatékony mint ahogy várható lett volna , 2.5 TB/sec a sávszélessége és keptelen odaverni az 1 TB/s alatti nvidianak, pedig elméleti számítások alapján raytracingben le kellett volna nyomnia, hisz az csak sávszélesség limites
-
#06658560
törölt tag
Azt lehet tudni, mennyi a büntetése az IC-nek, ha nincs benne a keresett adat és így ki kell a rendszernek slattyogni a grafikai RAM-ba az adatért?mennyi extra ciklus, ami aztán az egész képet blokkolni fogja?
-
paprobert
őstag
Mivel a konzolokban nincs Infinity Cache, teljesen véletlenszerű lesz, hogy feküdni fog-e az adott motor az architektúrának, vagy nem.
Ha lett volna a konzolokban, ez lett volna a kulcs a teljesítményhez... de nincs.
Új hozzászólás Aktív témák
- Magisk
- Milyen egeret válasszak?
- Honor Magic7 Pro - kifinomult, költséges képalkotás
- Forrasztásról mindent az alapoktól!
- NVIDIA GeForce RTX 5080 / 5090 (GB203 / 202)
- A nagy Szóda, Szódakészítés topic - legyen egy kis fröccs is! :-)
- Spórolós topik
- E-roller topik
- Samsung Galaxy A56 - megbízható középszerűség
- WoW avagy World of Warcraft -=MMORPG=-
- További aktív témák...
- Samsung Galaxy S20 FE 128GB, Kártyafüggetlen, 1 Év Garanciával
- Magic Trackpad legújabb fajta, lightning csatlakozóval
- Eladó egy XMG P406 laptop
- Telefon felvásárlás!! Samsung Galaxy A20e/Samsung Galaxy A40/Samsung Galaxy A04s/Samsung Galaxy A03s
- BESZÁMÍTÁS! Gigabyte AORUS B550M R7 5700X 32GB DDR4 1TB SSD RX 6800 16GB Zalman i3 NEO Gigabyte 850W
Állásajánlatok
Cég: FOTC
Város: Budapest