Keresés

Új hozzászólás Aktív témák

  • joysefke

    veterán

    LOGOUT blog

    Ebből az látszik, hogy egy CPU chipleten belül két CCX-re vannak bontva a magok, egy CCX pedig négyet tartalmaz.

    Ez nem hangzik valami jól, mert így a ZEN2 továbbviszi azokat a gyengeségeket amelyekkel a ZEN/ZEN+ jött és emiatt az eddig problémás helyzetekben (kevés szálas, IO intenzív kód) borítékolhatóan nem lesz jobb mint a konkurencia. Ott fog továbbfejlődni, ahol eddig is jó volt... :U

    Első körben szvsz a nagy gyengeségek befoltozásának kellett volna prioritást adni, oda pedig jól jött volna a 8 magos CCX közös L3-mal. Érdemes lett volna odaírni, hogy 16x16MB L3 =/= 1x 256MB L3-mal (persze ilyen senkinek sem lesz)

  • joysefke

    veterán

    LOGOUT blog

    válasz S_x96x_S #33 üzenetére

    Nem azt mondtam, hogy ne legyen moduláris, hanem hogy ahol masszív szűk keresztmetszet van, ott iktassák ki a szűk keresztmetszetet.

    Az, hogy 4x mag / CCX az szerintem egy masszív szűk keresztmetszetet teremt ami érezhető mind asztali mind szerver fronton. Én azt vártam, hogy a 14+ =>7nm váltással sikerül 8CPU magot egyetlen, közös L3-mal összekötött egységgé fogni.

  • joysefke

    veterán

    LOGOUT blog

    válasz S_x96x_S #37 üzenetére

    Szerver és HPC fronton a szűk keresztmetszet az Infinity Fabric volt.
    Valamint valószínüleg 8 magos ccx-et tervezni most nem fért bele az időbe.
    ...
    az Infinity Fabrik(v1) -nek a skálázhatóság volt a fő baja, a ccx-ek keresztbe-kasul kommunikáltak.
    Hiába cseréled led a 4 magos ccx-et -> 8magos ccx-re , a skálázhatósági probléma ugyanúgy fenmarad.

    Ezzel tisztában vagyok. És minél több mag van egy CCX-ben, annál kevesebb CCX kell ahhoz, hogy ugyanannyi magos CPU-t összehozz, legyen az 8-16-32-64, tökmind1, tehát kevesebb CCX<->IF kapcsolatod is lesz. Azzal, hogy most gyorsabbá teszik az IF-et, nyilván nagyot csökkentenek az IF által jelentett szűk keresztmetszeten, de az attól még ott lesz, mert egy közös L3 még mindig gyorsabb mint az IF.

    Manapság nem nehét olyan alkalmazásba belefutni, ami igényli az alacsony mag<->mag késleltetést és tud 4 fölötti maggal mit kezdeni.

    Nem azt mondom, hogy monolitikusan kéne 64 magot legyártani, de szerintem 7nm-en úgy hogy még az IO sincsen benne a chipletben illett volna legalább azt a nyolc magot közös alacsony késleltetésű L3-mal megcsinálni.

    egy 4 magos CCX-nek megvan az az előnye, hogy
    - ZEN2-es(7nm) Athlon procikat (max 4 mag )
    - olcsó notebook APU-kat
    - olcsó konzol chipeket ( semi custom )
    lehet belőle összelegózni.

    Ez nagyon szép, de ezekből nincsen pénz:
    -(1) ZEN-alapú konzol majd egyszer valamikor lesz, oda ráadásul jó lehet a félig selejt is (ami csak alacsony órajelen megy). Konzol chipen nincs sok nyereség.
    -(2) ZEN2 Athlon még jó darabig biztosan nem lesz. A ZEN2 kapacitást szerintem nagyon sokáig teljes mértékben fel fogja szívni a szerver és a mainstream desktop teteje-közepe.
    -(3) notebook APU: utolsó dolog ami miatt az AMD fejének főnie kell. Jelenleg itt még nem rúg labdába az AMD.

    Ezzel szemben szerverben és főleg deszktopon most is van pénz és kell a minél versenyképesebb termék.

    Ha igazán jól (skálázhatóak ) az Infinity Fabrik(v2) -
    akkor oly mindegy , hogy 4core-os ccx -ből vagy 8core-os ccx-ből van összelegózva.

    Az L3$ így is-úgy is sokkal gyorsabb lesz, ez pedig pld játékokban meg fog látszani. Gondolom Web és adatbázis szervereken is...

    [ Szerkesztve ]

  • joysefke

    veterán

    LOGOUT blog

    válasz S_x96x_S #39 üzenetére

    Nekem nem a CCX- koncepcióval magával van gondom, nem is azzal, hogy a skálázódást kisebb egységek összedrótozásával illetve külön IO-chippel oldják meg, hanem azzal, hogy ezek _mellett_ a 4mag/CCX dologhoz nem nyúltak és nem bővítették. (6 vagy 8 mag per CCX)

    Az, hogy ez jelenleg a ZEN/ZEN+ esetén bizonyos alkalmazásokban visszafogja a teljesítményt az nem kérdés. A ZEN2 IF-je ezen biztosan javítani fog, majd meglátjuk mennyit, illetve az is, hogy ezek után mekkora lesz a ZEN2- erősen IO-/mem- intenzív threadekben mutatott produkciójának az elmaradása attól amit a magok nyers ereje és órajele alapján várnánk. Remélem ez százalékban kifejezve lényegesen kisebb teljesítményveszteséget fog jelenteni a kérdéses applikációkban, mint most a ZEN+ esetén.

    De szerintem ezt a témát az AMD mérnökei eléggé kielemezték. és nem véletlen, hogy ezt az arhitektúrát alakították ki. Nem hiszem, hogy azért választották ezt az architektúrát, hogy lassabb legyen a ZEN2.

    Ez nem érv semmire. Az intel mérnökei és marketingesei is sokmindent kielemeztek mostanában ugyanúgy ahogyan mégelőtte az AMD emberei a Bulldózert...

  • joysefke

    veterán

    LOGOUT blog

    válasz paprobert #41 üzenetére

    Az intel 14nm-en hatékonyan le tud gyártani mainstream vonalra 6-8 magos procikat CCX-es trükközés nélkül. Ha 14nm-en már most -és már jó ideje- le lehet ezeket költséghatékonyan gyártani, akkor nekem nehéz elhinni, hogy 7nm-en ne lehetne egy 6 vagy 8 magos CCX-et egyben legyártani illetve hogy kezelhetetlenül megdobná a tranzisztor mennyiséget.

    A méretnövekedés pedig megakadályozott volna elég sok mindent. Alacsonyabb órajelek, nagyobb lapkaméret, több defekt, és ezzel akár egy ilyen 64 magos Epyc összerakása is megkérdőjelezhetővé válna.

  • joysefke

    veterán

    LOGOUT blog

    válasz #65675776 #50 üzenetére

    Úgy látom te is megértetted :U

    Talán az AMD nem engedheti meg magának hogy legyen egy 8, egy 18, meg egy 28 magos dizájnja is?

    Vagy csak jobban megéri nekik megcsinálni egy dizájnt ami aztán jó a 4, 6, 8, 12, 16, 24, 32, 48, 64 magra is?

    Nem mondtam hogy több CCX/chiplet design legyen és azt sem mondtam, hogy hatalmas legyen egy CCX. Azt mondtam, hogy a 4mag/CCX egyértelműen visszafogja az architektúrát.

    14-ről 7nm-re lépve bőven nő annyit a tranzisztorsúrűség, hogy beleférjen 4 helyett 6 vagy 8 mag abba a CCX-be.

    Vannak előnyei a monolitikus chipeknek is, de legalább annyi hátrányuk is, ha nem több. A gyárthatóság egyre nagyobb probléma lesz, elvégre az egyre kisebb csikszélességek egyre drágábbak, tehát a rossz kihozatal egyre nagyobb veszteséget jelent.

    Talán el kéne olvasni -és értelmezni- hogy mit írtam. Mégis hol írtam én, hogy monolitikus processzort gyártsanak?

  • joysefke

    veterán

    LOGOUT blog

    válasz S_x96x_S #52 üzenetére

    32, 48 és 64 (128 !?) magnál extrém minimális az a visszafogás amitől te tartasz.

    Honnan veszed, hogy "extrém minimális" lesz sok mag mellett? Egyrészt még nincs kint, másrészt jelenleg a ZEN-nél sem minimális ez: mind deszktopon mind szerveren vannak olyan feladatok ahol lényegesen gyengébben muzsikál a ZEN+ mint a konkurencia ezek pedig jelenleg a CCX<-IF->CCX kommunikációra vezethetőek vissza.

    Deszktopon ez úgy tűnik semennyire nem fog változni, ugyanúgy megmarad a <4-mag> <=IF=> <4-mag> rendszer mint potenciálisan szűk keresztmetszet kicsit javított késleltetésekkel. Játékokban ez továbbra is vissza fog ütni.

  • joysefke

    veterán

    LOGOUT blog

    válasz #95904256 #55 üzenetére

    Nem egészen értem, hogy miért látod jelentős problémának, hogy csak 4 mag osztozik az L3-on és a többi magot csak buszon keresztül tudják elérni

    Két okból:

    0,
    A legnagyobb probléma, hogy van pár fontos applikáció ahol a ZEN1/1+ már bebizonyította, hogy problémákba fut a jelenlegi "4 mag/CCX + IF" konstrukció. Játékok, Adatbázisok, Webszerverek(?). https://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade/18

    1,
    Mert így az L3$ sok kis darabra oszlik. Ha pld 16 db CCX van egyetlen processzorban, akkor a teljes L3$ 16 db szeletkében van. Ha pld 8db CCX-ből oldanának meg ugyanakkora magszámot (kétszer annyi mag per CCX) akkor kétszer akkora lenne egyetlen L3$ szeletke. 16x 16MB-nál sokkal jobb a 8x 32MB.

    2,
    Az Intel topológiában amit linkeltél, még így is sokkal alacsonyabb a cache késleltetés annál, mintha az Epyc1-ben egy a lokális CCX- L3 cachén kívüli adatot probálnál elérni:

    https://www.anandtech.com/show/11544/intel-skylake-ep-vs-amd-epyc-7000-cpu-battle-of-the-decade/13

    Még egyszer, nem azt mondom, hogy a CCX+IF/Chiplet nem volt hatalmas ötlet. Azt mondom, hogy a 4x Core/CCX design mind desktopon mind szerveren is bizonyos feladatokban érezhetően gyengélkedik. Nem minden feladatban, de van ahol nagyon. ennek megfelelően én azt vártam, hogy ezt a keresztmetszetet kibővítik legalább 6 de inkább 8 mag/CCX-re.

Új hozzászólás Aktív témák