Új hozzászólás Aktív témák

  • Petykemano

    veterán

    @S_x96x_S

    Láttam, hogy az Nvidia találgatósban megosztottad az aggályodat, hogy az Nvidia Genoa-t és nem Genoa-X-et használt a teszteléshez.

    Csak kiváncsiságból kérdezem, hogy Te tudod-e, hogy pl az OpenFoam hogy működik:
    - milyen utasításokat,
    - milyen feldolgozókat (FP/INT) használ
    - működése közben mekkora az interdependencia és adatmegosztás a szálak között?

    Azért kérdezem, mert nekem elsőre az jutott eszembe, hogy nem csak a Genoa, de akár a Bergamo is jobb ellenfél lehetett volna. De nem.

    A Bergamo (9754) valójában még a Genoa-nál is gyengébb eredményt ad. [link]
    Hiba több a mag. Pedig nem valószínű, hogy az OpenFoam szkálázódásával lenne a gond.

    A Genoa, Genoa-X és Bergamo eredményei között a legszembetűnőbb különbséget talán épp a L3$ mérete adja. De a Genoa és a Genoa-X L3$ mérete közötti nagy különbség ellenére is a teljesítmény differencia csak 14%, ami hasznos (és elképzelhető, hogy per socket gyorsabb is), de nem tűnik elégségesnek a Grace hatékonyság-előnyének behozatalára.

    A Grace 72 maghoz 117MB egységes L3$-t kínál. Ami egyébként összességében kevesebb, mint amit egy Genoa összesen tartalmaz (384MB) és nem sokkal több annál sem, mint amit egy Genoa-X CCD birtokol (96MB)

    De az mégiscsak egységes, emitt meg hiába van 1GB L3$, egy adattárból akkor is csak 8 mag tud dolgozni.
    Persze egyáltalán nem biztos, hogy ez a meghatározó tényező. De akkor mi?

    Memória sávszélesség? Az mondjuk a Genoa esetén feleakkora
    Feldolgozók száma? A Grace-ben 4x128b SVE2 FP feldolgozó van, az nem tűnik többnek, mint a Zen4-é
    CPU chipfelépítés?

    Van itt egy táblázat: [link]

    Azért persze van különbség
    Míg a Grace mag 64+64KB L1$, addig a Zen4 csak 32+32
    De mindkettőben magonként 1MB L2$ van.

    Régen az AT-en voltak ilyen mérések, amik azt mutatták meg, hogy mennyi energia megy a magokhoz és mennyi a package veszteség. És emlékeim szerint a kép azt mutatta, hogy a Milan esetén elég nagy.
    Kiváncsi lennék, a Genoa esetén ez változott-e és hogy mikor terveznek lépéseket tenni ez ellen.
    Pl:
    - Lecserélni a szubsztráton keresztüli távoli, magas frekvenciás, de szűk sávos kommunikációt valamilyen modern csatlakozóra
    - egységes L4$ az IOD-on a memóriasávszélesség kímélésére és CCD-k közötti adatmegosztásra
    - CCD-k közötti adatmegosztásra szolgáló L4$ (megosztott L3$)

    Vagy lehet, hogy nincs ilyen terv, hanem majd a Zen5c-vel rákötnek 16 magot egy egységes L3$-re és akkor ismét kesz valamelyest érzékelhető teljesítményjavulás itt-ott, ahol a teljesítmény függ a szálak kommunikációjától.

    Mit gondolsz?

Új hozzászólás Aktív témák