Új hozzászólás Aktív témák
-
hapakj
őstag
Szerintem nem. Ugye maga az RT core-ok is az SMP-nek a része, s ha lehetséges, akkor a compiler szépen át tudja rendezni a shader code-ot, hogy amíg az RT core a sugárkövetéssel foglalkozik, addig a CUDA alu-k meg számolgassák a matekot amit addig ki lehet. Az nvidia marketingelt is ilyen Async raytrace feature-t
De ez kb minden fixfunkciós hw-el így van. Pl textúra mintavételezés is. A compilerek első dolga minnél előrébb hozni a forráskódban ezeket a műveleteket, amennyire lehet, hogy a fixfunkciós hw minnél hamarabb hozzá tudjon kezdeni, s az eredményre lehető legkésőbb legyen szükség.
Gyengébb compilerek fejlesztőitől volt kérés, hogy ez mi manuálisan írjuk minnél hamarabb be a kódba, és tényleg gyorsult tőle a végrehajtás.
-
janos666
nagyúr
Még az jutott erről eszembe, hogy az RT-vel is ugyan ez a helyzet? Vagyis egy blokkon vagy csak egyszerű matek, vagy csak RT számítás fut, nem eléggé párhuzamosan egymás mellett? Attól is kiesik a warp drive fénysebesség alá a wave-jeivel?
-
hapakj
őstag
hát ugye ami vicces, hogy a platform amin első körben ez az AutoSR működni fog (meg valszeg a későbbi Intel, AMD SoC-ken) ugye a Snapdragon Elite, amit egyáltalán nem olcsó gépekbe szerelnek, s hát legtöbben fancy HDR képes OLED panel van.
meg most ugye Windows 11-ben másik nagy feature az AutoHDR, ami nem tudom mennyire jó cucc, kiváncsi vagyok azzal együttműködik az AutoSR
-
Abu85
HÁZIGAZDA
Elvben megoldja, csak NPU-tól gyorsul a feldolgozás, ha pedig minden a VGA-n van, akkor lassul a natív felbontáshoz viszonyítva. És ez a gond. Ha a VGA natívan gyorsabban számol, akkor miért használnál Auto SR-t? Ezért van tiltva.
A Strix Point Halo bőven 40 TOPS fölött lesz. De manapság ez már nem számít, mert igazából ott az NPU, ami 20-30x energiahatékonyabban számolja ugyanezt.
-
hapakj
őstag
Hja megbírkózna vele a 2060-as, csak a 4080-nak már 170 TOPS (tenzor) teljesítménye van és még adatokat sem kell másolni
Nem hiszem, hogy megérné összességében másodlagos kártyát használni erre.
Ilyen teljesítménnyel, meg elvileg már a Microsoft féle Copilot+-nak is megfelelnének az nvidia kártyák. Gondolom azért nem engedélyezték, mert nvidian kb tényleg be kell indítani a teljes GPU-t, mivel a tensor core-ok az SMP-kben vannak a CUDA core-ok mellett és azért eu nem kevés fogyasztás, főleg egy laptopban. Desktop esetén akár mehetett is volna, de azért valszeg ott is zajongott volna a VGA
-
janos666
nagyúr
Hamarabb volt HDR, mint DLSS a játékokban, és manapság már szinte minden játékban van mindkettő, én használom is őket egyszerre.
Ezt az MS jól benézte, ha csak SDR-ra jó. Pontosabban jelen formájában, mert ezek szerint az RTX2060, mint NPU bírná float16-al is a >40 értéket, míg a jeleng integráltak nem biztos. -
hapakj
őstag
A TOPS az trillion operation per second.
A 7+7 jó kérdés honnan adódik. Szerintem onnan, hogy a Turing microarchitektúra CUDA magjai egyszerre tudtak végrehajtani INT32 és Float32 műveleteket egy óra jel alatt és ez értik hogy 7 TOPS float32 + 7 TOPS int32.
Ez az AutoSR algoritmus pedig NPU-kra van tervezve. Azok speciális nem kifejezetten általános hw-ek mint a CUDA magok, hanem erősen mátrixszorzásra vannak optimalizálva. Erre az nVidia videókártyáiban már rég óta (Turing óta, 6 éve) dedikált Tensor core-ok vannak amelyek sokkal hatékonyabbak ebben a műveletben és ebben egy RTX 2060 teljesítménye 57 TOPS (ott még Tensor TFLOPS-nak hívják)
A többi gyártó, csak utóbbi kezdett beépíteni ilyen részegységeket a GPU magjai mellé, ha jól tudom Radeonban a 7000-es szériában van, intelnél meg az ARC óta. Persze mátrixot szorozni az általános magokkal is lehet csak jóval lassabb
Meg kell még említeni, hogy ilyen feldolgozók között is elég sok különbség van, pl az nvidia megoldásai elég komplexek és csomó típussal tudnak feladatot végrehajta, pl float16, INT8, INT4, egyebek. Míg ahogy néztem ezek a rendszerchipekbe integrált csoda NPU-k csak INT8-al vagy kisebbel érik el a nagy sebességet. Valószínűsítem, hogy a magas precizió támogatásának a hiánya, hogy ez az AutoSR algoritmus nem támogatja HDR tartalmak felskálázását. mivel oda legalább 10 vagy inkább 16bit lebegőpontos aritmetika kellene.
Gondolom a DLSS ami nvidia tensor corejai van lazán megbírkózik a HDR tartalmakkal is.
-
janos666
nagyúr
iGPU-m nincs, leghamarabb egy 7800X3D féle AMD I/O chipbe épített lehet.
A TOPS-ot nem tudom hogy kell számolni, Google-el jutottam ide: [link], aholl azt írják, hogy csak 7+7 TOPS-ot tud az RTX2060 Super. (Vagyis 14-et, ami <<40, de miért 7+7 ???).
Biztos, hogy a TOPS az érdekes, és nem az "57 Tensor TFLOPs"? -
hapakj
őstag
Az Auto SR egyébként inkább memóriaintenzív, mint számításintenzív. Úgy 6 GB RAM kell neki, hogy egyáltalán működjön.
Ha ez igaz, akkor egy 4080 meg bármely nvidia kártya tényleg megoldja csuklóból. Teljesen értelmetlen még másolgatni az adatokat egy gyengébb kártyára.
Egyébként van róla szó, hogy ezt asztali konfigoknál szimplán megoldhatná az IGP.
Egy IGP??? Melyik IGP-nek van 40 TOPS számítási teljesítménye? Igazából kissé ellentmond annak, hogy 40 TOPS kell neki és nem számításintenzív. 40 TOPS egy GPU-tól ma sem kevés.
-
Abu85
HÁZIGAZDA
Az működhet, hiszen akkor csak a mátrix feldolgozó kapja meg a teljes regiszterterületet, így nagy hatékonysággal tud számolni, és nem akadályozza egymást az AI és a grafikai feladat ugyanazon a multiprocesszoron.
Az Auto SR egyébként inkább memóriaintenzív, mint számításintenzív. Úgy 6 GB RAM kell neki, hogy egyáltalán működjön. Tehát ha szerzel hozzá egy minimum 6 GB-os VGA-t, legalább 40 TOPS teljesítménnyel, elméletben megoldható a helyzet, és gyorsítani is fog.
Egyébként van róla szó, hogy ezt asztali konfigoknál szimplán megoldhatná az IGP. Megvan benne a számítási teljesítmény, ami kell, és kb. tudsz is nélkülözni 6 GB-ot a RAM-ból erre.
-
Kolbi_30
őstag
Amugy ez a copilot egy sapka szar, GPT hatvanyozottan jobb. Erre buildet epiteni vagy lokalisan megoldani a hasznalata egy reszet, szerintem eroforras pazarlas
-
hapakj
őstag
igen NVLink is volt, de az nem tudom mennyire PCI-E technológia. Az SLI bridge az elvileg az volt, de az NVLink az valami IBM-mel közösen fejlesztett PowerPC közeli cucc.
Amúgy NVLink vagy PCI-E bridge ide vagy oda, a kártyák tudnak a rendszer PCI-E busz segítségével is kommunikálni. Van ilyen SLI activator hack, amivel eléggé különböző kártyákon, illetve olyan kártyákon is aktiválni lehet az SLI-t, amelyeken nincs is SLI csatlakozó
[link]
Van is igazi beast Geforce 520 és Geforce 610 VGA-m. Ugyanaz a GPU és 1GB Ram. Nah majd megpróbálom SLI-be erőszakolni őket
Volt valami videó is, hogy ezzel 4db Geforce 430-at erőszakoltak SLI-be
Meglepő volt, hogy 3db-ig ténylegesen gyorsult is sok játék alatt!
-
hapakj
őstag
hát igazából az SLI bridge lényegében az ha jól tudom
Ott a két GPU valami ahhoz nagyon hasonlóval volt össze kötve.
Nomeg ha jól tudom a PCI-E eszközök át tudják venni a bus master szerepkört és akkor a VGA azzal a másik dedikált hw-el kommunikál amivel akar, legyen az másik VGA vagy az SSD
-
janos666
nagyúr
És mi lenne, ha beraknánk egy olcsó (alacsony kategóriás) RTX VGA-t a nagyobb mellé, és az válna kvázi-NPU-vá? Valahogy úgy, mint a Physx-nél...? Pl. RTX4080 + RTX2060?
-
Abu85
HÁZIGAZDA
Akinek nem fér bele a memóriamásolás használjon IGP-t. De ettől maga a munkafolyamat megvalósítható.
Az AMD és az Intel VGA-iban nincs NPU. Később lehet, hogy lesz, ez még képlékeny, de van már rá egyfajta igény, hogy az NPU ott legyen a CPU-ban és a GPU-ban is. És ezt sokan el is fogadnák. De nincs végleges döntés.
A MediaTek AI megoldása részben saját fejlesztés. Nem teljesen az ARM másolata, bár az alapja az, de a kezdeti licenc óta saját maguk optimalizálják és tervezik tovább. Az NVIDIA nem rendelkezik ilyen célhardverrel, a zöldek AI megoldásainak energiahatékonysága nagyon messze van a jelenlegi NPU-któl. 20-30x-os a különbség az NPU dizájnok javára. Nyilván az NV ragaszkodhatna a saját dizájnhoz, de nem lenne túl jó döntés, mert nagyon kikapnának üzemidőben a többiektől. Úgy meg ugye tök feleslegesen hoznának notebookplatformot, ha üzemidőben a felét-negyedét tudnák az Intel-AMD-Qualcomm triónak AI munkafolyamatokban.
Egyébként klasszikus értelemben az Intel NPU-ja sem saját fejlesztés, hanem a Movidius alapjára épül, míg az AMD NPU-ja a Xilinx dizájnjának továbbfejlesztése. Az NV is vehetne valamit magának, de már lecsúsztak a legjobb üzletekről. Egyszerűbb lenne nekik is licencelni az ARM-ot, de a MediaTeknek ott a saját NPU-ja, bőven jó az. Energiahatékonyságban hasonló szint, mint amivel szembe kell nézniük. -
hapakj
őstag
Mivel az Auto SR különálló folyamat, így elméletben mindegy, hogy a kép az IGP-ből vagy a dedikált GPU-ból érkezik.
- hogy lenne már mindegy? egy round trip dedikált RAM-ba és vissza egyáltalán nem olcsó mindenképp rápakol a késleltetésre.Az AMD, az Intel és az NVIDIA GPU-iban is különálló részegységek vannak AI-ra. Mindegyik új generációs dizájnan.
- Hmm tehát, ha az AutoSR jön AMD és Intel Copilot+ SoC-kre, akkor ez azt jelenti, hogy más AI hw design van az AMD és Intel integrált megoldásaiban, mint a dedikált VGA-iban? Ez az aztán extra bonyolításnak hangzikA MediaTek és az NVIDIA kooperációs fejlesztése is ide fog tartozni, és a MediaTek adja az AI hardvert hozzá.
- hát nem hinném, hogy a Mediateknek lenne saját AI hw-e. Legalábbis a Dimensity 9400 alapján is az ARM AI megoldását használják. Furcsa lenne, ha az nvidia engedné, hogy AI-ra idegen megoldás legyen a SoC-jukba, de majd meglátjuk. -
Abu85
HÁZIGAZDA
válasz
Lord Amper #9 üzenetére
Mivel az Auto SR különálló folyamat, így elméletben mindegy, hogy a kép az IGP-ből vagy a dedikált GPU-ból érkezik.
#13 hapakj : Mert nem működik jól vele. Ezért van NPU-hoz kötve. Azzal működik jól. Eleve a funkciót könnyebb csak úgy hagyni futni DirectML-en, de mégis feketelistázzák, mert szar az élmény.
Az AMD, az Intel és az NVIDIA GPU-iban is különálló részegységek vannak AI-ra. Mindegyik új generációs dizájnan. Ismétlem: MINDEGYIK ÚJ GENERÁCIÓS DIZÁJNBAN.
A probléma az, hogy hiába vannak dedikált feldolgozók erre az új dizájnokban, ezek a dedikált feldolgozók ugyanazokat a regisztereket használják, amelyeket a fő ALU tömbök. Tehát egyszerre csak az egyik futószalag működhet optimálisan, mert a regiszterek kapacitása úgy van méretezve, hogy egy futószalagot szolgáljon ki, annak ellenére, hogy mindegyik új generációs dizájnban vannak dedikált AI feldolgozók.Simán lehetne akármelyik új generációs GPU target, mert dedikált AI feldolgozóik vannak, de nem jó az élmény, amíg ezek a feldolgozók nem kapnak dedikált regisztereket.
Igen, az Auto SR az menni fog a többi NPU-n is, ami jönni fog majd PC-re. A MediaTek és az NVIDIA kooperációs fejlesztése is ide fog tartozni, és a MediaTek adja az AI hardvert hozzá.
-
hapakj
őstag
okok, ismerem ezeket, de én nem ilyen AI dolgokra gondoltam.
Hanem arra, hogy a teljes játék tényleg meg van írva compute shaderben aztán ezekkel a modern indirect featureökkel megoldja a rendert is. A CPU oldalról meg csak egy ticket kap, hogy next frame meg az inputot. Azért ennek már nem erőforrás zabálóan 10 fps-sel kellene mennie
-
S_x96x_S
addikt
> egy teljes játék lényegében a GPU-n fut
vannak ilyenek:
neurális hálón:
- sakk, https://arxiv.org/html/2402.04494v2
- go
- szöveges LLM alapú játékokvalamint:
"Counter-Strike's Dust II runs purely within a neural network on an RTX 3090 — performance is disappointing at only 10 FPS"
és a kutatás mögötte
"CSGO DIAMOND 💎 Diffusion World Model Demonstrations"
https://diamond-wm.github.io/
-
hapakj
őstag
A GPU-k tényleg fejlődnek, de azért messze nem olyan rugalmas hw-ek. Míg bármely CPU képes elvégezni egy GPU feladatait (lassabban) ez fordítva nem feltétlen igaz.
Egyébként a különböző GPU indirekt megoldások sokat fejlődtek utóbbi időben, mármint, hogy a GPU önmagának oszt ki feladatokat. Egy mai modern VGA-n szinte a teljes render engine implementálható lehet gpu-n, render logikával együtt, de attól még nem biztos, hogy megéri és gyorsabb lesz a végrehajtás.
Egyébként gondolkodtam rajta, már rég, hogy írok valami egyszerűbb hobbi projektet, ahol egy teljes játék lényegében a GPU-n fut
játéklogikával mindennel együtt
Szerintem egy modern Geforce 40xx szériás GPU már egy Half Life 2 szintű játékot simán megoldana magában
-
hapakj
őstag
A Snapdragon mellett az AMD és az Intel AI platformja is támogatva lesz minden funkcióval. Erre céldátum is van, kb. november vége.
Majd támogatva lesz, addig viszont igazából exklúzív. De igazából az exklúzivitást, ezekre a potato PC színtű hw-ekre értem. Közben nvidia oldalról már rég piacon vannak platformok amelyek alkalmasak lennék ezeknek a featureöknek a futtatására mégsem oldották meg. (40-50 TOPS-os vga-i nvidiának már rég van az "alsó" házba is)
Van egy GPU, annak van teljesítménye grafikában és AI-ban.
Ez nvidia esetén nyilvánvaló. Az AI feldolgozás nem külön egység végzi, hanem a CUDA coreok mellé pakolt Tensor core-ok. Ennek meg megvan előnye, hogy bármi feladatot végez (AI vagy grafika) akkor nem pihennek a multiprocesszorok, s a különálló részegységek regiszterei helyett lehet még több végrehajtóra költeni a tranzisztorokat. Szóval ahelyett, hogy ez egy aszinkron heterogén rendszer lenne, ez egy bitang erős homogén rendszer, ami valszeg lazán megoldaná a render és Auto SR feladatát szinkron is.
GPU-n lassítani fog, vagyis elveszíti a hasznát
nem kibaszásból csinálja ezt a Microsoft,
Én nem mondtam, hogy a MS kibaszásból csinálja, csak nem az nvidia a target platform, mert ott bőven van erő. Épp ezért írtam, lazán megoldaná ennek az Auto SR-nek a futtatását, csak valszeg haszna nem nagyon van, mert ez már olyan kategória, ahol olyan eljárásokra van szükség mint DLSS upscale és frame generation.
Az Auto SR továbbra is a Copilot+ Potato HW-ek renderteljesítményének feljavítására van. Ezen a termékkategóriában az nvidia nincs jelen, majd ha a Mediatekkel beszál ő is, akkor gyanítom azon is szépen fog menni az Auto SR.
-
ViZion
félisten
válasz
noPublicFG #8 üzenetére
Évekkel ezelőtt, vmi nagyobb VGA megjelenésénél mondtam, h lassan a CPU-t majd a VGA-ba dugjuk "co-processor"-ként.
Lehet jósolnom kellene... -
hapakj
őstag
válasz
noPublicFG #8 üzenetére
Ez egy elég természetes dolog, hogy gyakori erőforrás intenzív feladatokra csinálunk dedikált hw, ami aztán visszaszivárog a központi egységbe.
Régen a CPU teljesen alkalmatlan volt számok összeszorzására is. Csak egész számokkal tudott műveleteket végezni s a valós/lebegőpontos számok kezelése már sw volt. Ennek gyorsítására volt az x87 kooprocesszor.Aztán ez integrálása került a 486DX-ben, sőt pentium idején kapott vektor feldolgozó és multimédiás utasításokat.
Aztán megjelentek a GPU-k meg a multimédiás kártyák és azok is bekerültek a CPU-ba, meg még sok minden más. Bár azóta SoC-nek hívjuk.
Igazából teljesen rendben van, hogy a CPU feladata a rendszer üzemeltetése s a feladatok kiosztása a dedikált végrehajtóknak, s olyan általános feladatok végrehajtása amire nincs jobb hw.
-
hapakj
őstag
válasz
Lord Amper #9 üzenetére
Biztos hazavágná az egész értelmét a késleltetés.
(Esetleg radeonokon segíthet, amikben nincs értelmes AI gyorsító hw
)
-
-
Lassan a grafikus kártya kiváltja a számítógépet!
A viccet félretéve, tényleg nem értem! Valaki felvázolhatná, hogy is néz ki ma egy PC! A Processzor válláról már mindent levettünk, a memóriában már semmi sem fut, mindent a dVGA-ra helyeztünk át... -
Abu85
HÁZIGAZDA
Nem akarják exkluzívvá tenni. A Snapdragon mellett az AMD és az Intel AI platformja is támogatva lesz minden funkcióval. Erre céldátum is van, kb. november vége.
Ez az, amit sokan nem értenek meg. Van egy GPU, annak van teljesítménye grafikában és AI-ban. Külön-külön jók, de ha egyszerre futnak ezek a részegységek, akkor masszívan romlik a teljesítmény, mert ugyanahhoz az erőforráshoz férnek hozzá. És mivel egy GPU statikus erőforrás-allokációt használ, így nagyon nehéz úgy alakítani a programokat, hogy egy erőteljes AI feladat ne küldje a konkurens grafikai vagy compute wave-ek számát shaderenként 2-4 alá. Ennyire kevés wave mellett pedig már nem tudja a GPU átlapolni a memóriaelérés késleltetését, vagyis hiába van bennük több ezer ALU, azok nem fognak többségében semmit sem csinálni, mert adatra várnak. Hát ezért ragaszkodik a Microsoft az NPU-hoz, mert az egy dedikált hardver önálló erőforrásokkal, és annak a terhelése nem rontja masszívan a grafikai teljesítményt. Ergo az Auto SR NPU-val gyorsít a feldolgozáson, de csak GPU-n lassítani fog, vagyis elveszíti a hasznát, amiért kreálták az eljárást.
Szóval nem kibaszásból csinálja ezt a Microsoft, hanem azért, mert kiemelten ügyelnek arra, hogy az élmény, amit kapsz az AI-val pozitív legyen és ne negatív.
-
hapakj
őstag
Hát az MS-nek mostanság elég sok ostoba döntése van.
Windows 11 és az abszolút túlzó hw-es követelményeik. Rágörcsölés erre az AI-ra, meg hogy nagyon exklúzívá akarják tenni erre a Snapdragon Elite X-re.
Olyan mintha Apple-t akarnának játszani, csak ők nem Apple
Amúgy biztos jól menne nvidian, merthát egy több éves modell is bucira veri ezt a Snapdragon SoC-t AI-ban, csak hát mire, ha raszterben meg ALU-ban is bucira veri
Itt a tényleges cél a lagymatag teljesítményű Snapdragon SoC teljesítményének workaroundolása.
-
S_x96x_S
addikt
> Asztali procikban mikor lesznek ilyen ai feldolgozók?
NPU?
Korai példányok [1] már elérhetőek.Érdemes a fél szemedet rajta tartani,
de nem árt megvárni a 40-50 TOPS-os változatokat----------
[1]
pl. AMD Ryzen™ 5 8600G Desktop Processor
AI Engine Capabilities
Brand Name : AMD Ryzen™ AI
AMD Ryzen™ AI : Available
Performance : Up to 16 TOPS -
GodGamer5
addikt
Asztali procikban mikor lesznek ilyen ai feldolgozók?
-
hapakj
őstag
Hát valszeg nvidian jól menne. Csak oda meg mire upscale, amikor natívba lazán kitol mindent. ugye-ugye
Új hozzászólás Aktív témák
- Lenovo Ideapad 5 14" FHD IPS Ryzen 5 5500U 8GB RAM 256GB NVME SSD Magyar Vil. Bill. Garancia
- LG UltraGear 27GR93U-B 27 4K UHD Gaming Monitor garanciával
- Kingston Fury Beast 32GB 6000MHz DDR5 CL30 RAM (KF560C30BBE-32)
- Eladó iPhone 13 Blue 128Gb független Akku 100%
- Új Dell 13 Inspiron 5310 FHD+ IPS i5-11300H 4.4Ghz 8GB 256GB Intel Iris XE Graphics Win11 Garancia
- Nexigo PJ40 okosprojektor / Számla + Garancia /
- GYÖNYÖRŰ iPhone 13 Pro Max 1TB Sierra Blue -1 ÉV GARANCIA, Kártyafüggetlen, MS3091, 94% Akkumulátor
- GYÖNYÖRŰ iPhone 13 256GB Starlight -1 ÉV GARANCIA - Kártyafüggetlen, MS3204, 94% Akkumulátor
- LG 27UP850NP-W - 27" IPS LED - 3840x2160 4K - DisplayHDR 400 - USB Type-C - AMD FreeSync
- HP EliteBook 830 G8 i5-1135G7 16GB 512GB 1 év garancia
Állásajánlatok
Cég: FOTC
Város: Budapest