Keresés

Új hozzászólás Aktív témák

  • lezso6

    HÁZIGAZDA

    LOGOUT blog

    válasz Petykemano #37417 üzenetére

    Egyszerű a helyzet. :D

    Az NV-nek van Tensor magja. Egy Tensor mag az 64 db FMAC ALU, ami órajelenként 16 db 16 bites dot productot tud csinálni, azaz órajelenként egy 4x4 mátrixszorzást. Az FMAC működéséből következik az, hogy a mátrix-szorzás eredményéhez bónuszként hozzá lehet adni egy másik mátrixot is, bár ez nem tudom hasznos-e, de ha már van, akkor ki lehet használni. NV-nél egy Tensor magra (64 FMAC ALU) jut 8 sima FP32 ALU. Innen jön a 8x szorzó.

    AMD inkább magát a dot product támogatását építette be a SIMD-ekbe. Így a mátrix-szorzás máris gyorsabb, de egy Tensor magnyi teljesítményt egy fél CU tud csak megcsinálni, azaz 2 SIMD (32 ALU), tehát GCN-es megoldás még mindig 4x lassabb.

    Elvileg az AMD hoz majd mátrix-szorzást is a Navi-ban. Hogy dedikált hardver lesz-e vagy a CU-k fogják támogatni, azt nem tudom. De a lényeg, hogy ezzel 4x a sebességnövekedés lenne mátrixszorzásban.

    Amiről Abu szokott beszélni az az NV dot product támogatásának hiánya. Maga a Tensor nem képes önmagában dot productot számolni, míg a Vega 20 igen. Ugye dot product = vektorok skaláris szorzata. De hogy a mátrix szorzáson kívül hol lehetne hasznosítani a dot productot, arról fogalmam sincs.

    Egyébként a Turing erre az Volta-féle INT8 / INT4 lassúságra már válaszolt, mert a Tensor magok ilyennel is tudnak dolgozni, ebben az AMD-nél 4x gyorsabbak mátrixszorzásban. A Volta ténylegesen lassú INT8-ban, mivel a Tensor magjai csak FP16-ot támogatnak.

Új hozzászólás Aktív témák