Új hozzászólás Aktív témák

  • Petykemano

    veterán

    válasz DraXoN #2699 üzenetére

    "Ez megszüntetheti az említett szűk sávszél problémáját.
    A közös címtér miatt meg nem kell majd mindent betölteni a cpu-n levő ramba, csak ami kell, így a gyorsítótárban elfér a fontos adat és ami később kell majd át lehet tölteni a fő ramból (már azt is gyorsabban ddr5 alapokon).
    Én mindenképp a zen4 vagy zen5 időszakára várnám a következő nagyobb design ugrást emiatt. Azt nem tudom persze ez már 3D tokozás lesz-e, vagy csak esetleg 2.5D, vagy marad 2D mint a mostaniak. Hely szempontjából a 3D a legjobb, de a hűthetőségnek erősen gondot jelent. A 2D ügye sok helyet igényel, és esetlegesen nagyobb távolságokat ami késleltetésben nem jó. A 2.5D egy jó kompromisszum lehet."

    Igazából az AMD-nek már megvan a technológiája erre: HBCC
    Az pont azt csinálja, hogy a GPU fedélzeti ramját csak gyorsítótárként használja.

    A cache layerekről persze általánosságban elmondható, hogy minden layer hozzáadhat egy adatkérés késleltetéséhez - amennyiben az nem található meg a cache-ben. Ezt persze szerintem okos prefetcherekkel kezelni, meg azért 2-8GB elég gigantikus ahhoz nagy legyen a haszon az esetleges veszteséghez képest.

    Azt nem tudom, hogy vajon a HBCC milyen késleltetést adott hozzá a pcie-en keresztüli adateléréshez? És hogy ehhez képest ha egy ilyen megoldás a RAM előtt van L4$-ként, akkor ahhoz képest ez milyen. Valamint hogy mennyit számíthat az a ram késleltetésében, hogy a HBM2 nagyon közel (pár mm) van az IP chiphez szemben a RAM-mal, ami pár cm-re.

    Teszem hozzá, a HBM2 valószínűleg nem késleltetés-bajnok, különben már rég használnák ilyen célre.

    A 3D szerintem abban segíthet "csak", hogy szükséges-e interposer. Mert ha most az IOD tetejére rá lehetne pakolni HBM-et, az már most is működne.- (Más kérdés, hogy vajon a két lapka közötti szintkülönbséget mivel hidalnák át?)

    Ugyanakkor meg azt is tudjuk, hogy az interposeres lapka-összeköttetés lényegesen tudná csökkenteni a fogyasztást, ami pedig az IF esetén így se kevés.

    Bár az IO lapkára pakolni valamilyen cache-t egészen adná magát, hiszen azon keresztül fut minden memória felé való kérés. Én ugyanakkor lehet, hogy több potenciált látnék abban, hogy a compute lapkák 3D tokozásával alá, vagy alá-fölé akár több rétegben (nem is feltétlen HBM) cache-t tennék. Valószínűleg L4$-nek nevezném, megtartva jelenlegi L3$ méretét.

    Ugyanakkor érdekes kérdés, hogy vajon mennyit érhet (hány % IPC) egy ilyen?

Új hozzászólás Aktív témák