[Re:] Az Intel részletezte a Xeon Phi újításait - Fototrend Hozzászólások

LOGOUT témák

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD témák

Új hozzászólás Aktív témák

#24 kovee01 tag onereborn #12

Új Válasz 2013-03-23 14:50:29 #24
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

kovee01

tag

válasz onereborn #12 üzenetére

+1
#23 #06658560 törölt tag Abu85 #17

Új Válasz 2012-09-01 14:06:20 #23
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#06658560

törölt tag

válasz Abu85 #17 üzenetére

Én csak arról beszéltem volna, hogy nem lett volna értelmesebb, kompakt összekötése a magoknak, hogy a késleltetést alacsonyabban tartsák? Mert így egyszerre két egység tudja vizsgálni a kérést, hogy adatot kér egy harmadik, úgy meg a drótozás kérdése, mennyinek adják ki. Kisebb egységekben gyors a körbeérés, nagyobbakban meg a mostaninál nem lassabb több mag esetén sem.
Apropó: azt mi alapján lehet eldönteni, melyik megoldás éri meg jobban: az adott egység kér adatot máshonnan, vagy a másik egységnek átadja a sajátját kérés nélkül, s dolgozik tovább más szegmenssel?
#22 julius666 addikt LordX #20

Új Válasz 2012-08-31 14:57:27 #22
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

julius666

addikt

válasz LordX #20 üzenetére

Hát akkor vagy te nem értetted amit én írtam vagy én nem te pontosan mit akartál mondani, de szerintem nem.
#21 LordX veterán Abu85 #19

Új Válasz 2012-08-31 12:06:49 #21
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz Abu85 #19 üzenetére

Szerintem viszont pont össze fognak érni - szoftver oldalról a "CPU" és "GPU" mindig is különböző lesz (pont mivel másra való), még akkor is ha egy chipbe lesz (van..) integrálva, viszont mindkét 'szálon' néha-néha bejöhet egy-egy olyan utasítás, ami a másiknak kedvez jobban.
El tudok képzelni egy olyan jövőbeli APU-t, amin a CPU AVX(-szerű) utasításait GCN(-szerű) végrehajtóegységekre ütemeznek, a GPU meg kap pár bitshuffle / integer / akármi utasítást, amit a proci integer egységei hajtanak végre. Ilyen esetben már persze nem lehet azt mondani, hogy ez a rész a CPU az meg a GPU.
#20 LordX veterán julius666 #18

Új Válasz 2012-08-31 11:58:46 #20
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz julius666 #18 üzenetére

Te, nem pont ezt mondtam én is, csak kicsit tömörebben?
#19 Abu85 HÁZIGAZDA julius666 #18

Új Válasz 2012-08-31 11:58:17 #19
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz julius666 #18 üzenetére

A minőség az eléggé függ a szoftvertől is. De a GPU-k is mennek felépítésben a procis irányba. A GCN CU már úgy néz ki, mint egy RISC processzor. A CPU-k is mennek egy picit GPU-s irányba pl. AVX2. Összeérni sosem fognak, mert más szempontok alapján kell tervezni őket a hatékony működéshez, de az letagadhatatlan, hogy a logikai felépítésük egyre hasonlóbb.
#18 julius666 addikt LordX #7

Új Válasz 2012-08-31 11:33:55 #18
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

julius666

addikt

válasz LordX #7 üzenetére

Videó kódolásra a rengeteg compute shader nem igazán jó architektúra. A gpukba jelenleg bedrótozott gyorsítok meg energiahatékonyság szempontjából lehet hogy jók, azon túl viszont buták, túl merevek (nem skálázódnak) és minőség terén sem biztos hogy kielégítő amit kitolnak magukból (nyilván felhasználási terület kérdése).
A cikkben tárgyalt cucc viszont nem hangzik rá rossznak.
#17 Abu85 HÁZIGAZDA #06658560 #16

Új Válasz 2012-08-31 00:20:10 #17
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz #06658560 #16 üzenetére

Az magok önmagukban nem foglalkoznak a másik maggal. Ha kell egy gather, akkor az kikérésre kerül, de a rendszer ezt monitorozza. Ha egy adat ép olyat akar felülírni, amit éppen kér egy másik mag, akkor előbb annak a másik magnak a kérése teljesül, majd aztán felül lesz írva.
Ahogy Andrew Richards megmondta régebben a Larrabee fejlesztésével való tapasztalatai alapján: az x86-os processzormagok nagyon mereven kezelik a memóriaműveleteket és a koherenciát. Ez logikus, mivel amikor az ISA-t tervezték pár évtizeddel ezelőtt abszolút nem is volt belekalkulálva, hogy valaha is 60 mag lesz egymás mellett. Még arra sem gondoltak, hogy kettő lesz. Az Intel azért van ezekre a trükkökre kényszerítve, mert ragaszkodnak az x86-hoz.
Ahogy láthatod az NV és az AMD GPU-it, teljesen más a tervezési norma. Az ISA-t folyamatosan az igényekhez igazítják, mert ez a hatékony működés alapja. A cacheszervezés is elképesztően más. Az Intelnél a Knights Corner egy magon belül tartalmaz egy 32 kB-os utasítás és egy 32 kB-os adat cachet, és a magokhoz tartozik 256 kB L2, ami összesen 32 MB L2 jelen esetben. A GK110 például teljesen más. Ott egy magban van egy 48 kB-os csak olvasható cache, amit kiegészít egy 64 kB-os L1, ami szétosztható háromféleképpen (16/48, 32/32, 48/16), emellett van még Az L2 összesen 1,5 MB. A Tahiti szintén más. Ott egy magban van egy 64 kB-os LDS egy 16 kB-os L1, és négy mag között meg van osztva egy 16 kB-os csak olvasható és egy 32 kB-os utasítás gyorsítótár. Az L2 pedig összesen 768 kB.
Elképesztő a kontraszt, ami az AMD/NVIDIA és az Intel között van. Teljesen más a tervezés iránya. Persze az AMD-nek és az NV-nek könnyebb, mert náluk ott az évtizedes tapasztalat, még ha az AMD ezt az ATI-val vette is. Az Intel most tanulja mit-hogyan-merre.
#16 #06658560 törölt tag Abu85 #10

Új Válasz 2012-08-30 23:56:39 #16
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

#06658560

törölt tag

válasz Abu85 #10 üzenetére

Ha jól értem amint egy egységnek kell valami a nem saját memóriából, akkor kiküldi mindkét irányba a kérést, amit a szomszédjai megvizsgálnak, majd ha nincs náluk továbbküldik. Egész addig, amíg valaki nem visít, hogy megvan, küldöm. Az vagy mindkét irányba küldi, vagy azon irányba, amerről előbb érkezett neki a kérés, a másik irányba meg egy nulljelet esetleg. Nem érné meg faszerkezetben kivitelezni a kapcsolatokat? A klasszikus tervezzünk kutatóbázis alapon a maximális út rövidebb lenne. Miért nem azt választották?
#15 kleinguru addikt lionhearted #14

Új Válasz 2012-08-30 20:42:06 #15
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

kleinguru

addikt

válasz lionhearted #14 üzenetére

Hát még neked
Bocsi, de nem hagyhattam ki
#14 lionhearted őstag Abu85 #13

Új Válasz 2012-08-30 15:23:11 #14
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

lionhearted

őstag

válasz Abu85 #13 üzenetére

A hülyének is megéri.
#13 Abu85 HÁZIGAZDA onereborn #12

Új Válasz 2012-08-30 15:10:46 #13
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz onereborn #12 üzenetére

Tulajdonképpen a Xeon Phi-nek a host processzor mindegy. Ha van a gépben egy PCI Express slot, amibe belerakható, és az OS support is megoldott, akkor nincs akadálya a működésnek. Ha van 5000-8000 dollárod, akkor akár otthonra is lehet venni egyet.
#12 onereborn tag

Új Válasz 2012-08-30 14:52:58 #12
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

onereborn

tag

Egy mezei Sandy Bridge rendszerben is futhat vagy csak xeon cpukkal fog együttműködni.
Ez még sehol sem jött le.
Mert az AMD és az nVIDIA a GPGPU számítást nem csak nagyvállalati környezetre fejleszti - természetesen abban a kategóriában több szolgáltatás található, mint egy mezei otthoni számítógépnél.
#11 MongolZ addikt Abu85 #10

Új Válasz 2012-08-30 12:31:11 #11
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

MongolZ

addikt

válasz Abu85 #10 üzenetére

Valóban gyűrűs, ezeket mindig összekeverem...
Nem tudott volna az Intel egy hub-rendszerűt kialakítani, vagy a kialakítás miatt ezt egyébként sem lehetséges? Esetleg ez szándékos eltérés a rivális termékektől?
#10 Abu85 HÁZIGAZDA MongolZ #9

Új Válasz 2012-08-30 11:39:22 #10
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz MongolZ #9 üzenetére

Nem kell ide csicsa a lényeg látszik.
Inkább az AMD gyűrűse. A HUB-os más. A gyűrűst a magas késleltetés miatt lecserélték. Ez egyébként itt is probléma volt a Knights Ferry-vel. Ezért osztották négy blokkra a rendszert. Bár mindegyik mag elérheti az összes memóriavezérlőt, de törekednek arra, hogy a legközelebbit használják. Mire 25-30 megállón átmegy az adat az 25-30 órajel. Persze ez a négy szál miatt annyira nem nagy gond itt, de majd a Skylake-ben gázos lesz, mert ott a procimagok igen érzékenyek arra, hogy mennyit késik az adat, és ez a gyűrűs busz általános átka.
Azokat nem ismerem, de hasonló lehet, mint a DGEMM. A DGEMM azért terjed, mert az Intel szerint ez a mérvadó. Az AMD és az NV szerint ez csak egy adat, ahogy a többi is, és nem szabad belőle általánosítani.
#9 MongolZ addikt Abu85 #8

Új Válasz 2012-08-30 11:34:59 #9
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

MongolZ

addikt

válasz Abu85 #8 üzenetére

Az Intel gyakornokai szép kis képeket dobtak össze Paintben az előadást megelőző éjszaka
Nekem egyből az AMD hubos megoldása jutott eszembe a diagramról. Jók a megérzéseim?
Valamiért nem hiszem, hogy az Intel (első körben) komoly alternatíva lehet az AMD és az nV számára. Technikailag. Az üzletpolitikájukat ismerve pedig nagy jövőt jósolok neki.
Egyébként S/C/ZGEMM hatékonyság ismert (C és Z mennyire releváns)?
#8 Abu85 HÁZIGAZDA LordX #5

Új Válasz 2012-08-30 10:39:52 #8
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz LordX #5 üzenetére

DGEMM hatékonyság:
Knights Corner: ~90%
GK110: ~85%
Tahiti: ~95%
Ezek mért adatok. A többi az elméleti számítási teljesítménytől függ.
#7 LordX veterán kleinguru #6

Új Válasz 2012-08-30 10:36:48 #7
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz kleinguru #6 üzenetére

Videó kódolás az más kategória, mert alapból van valamilyen hardveres gyorsító az AMD/nV kártyákban, ott nem csak a compute shaderek "izzadnak".
#6 kleinguru addikt LordX #5

Új Válasz 2012-08-30 10:25:04 #6
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

kleinguru

addikt

válasz LordX #5 üzenetére

Amúgy videó kódolás oldaláról lehetne egy worksation kategória is!
És mindjárt értelmet is nyerne számomra az összehasonlítás
#5 LordX veterán

Új Válasz 2012-08-30 10:23:42 #5
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

Kíváncsi lennék egy GCN - MIC - Kepler összehasonlításra, compute irányból.
#4 tcp tag kleinguru #1

Új Válasz 2012-08-30 10:14:13 #4
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

tcp

tag

válasz kleinguru #1 üzenetére

a mindennapi (üzleti)életben semmit. Elsősorban tudományos és műszaki vonalon vannak olyan feladatok, amiknél értelme lesz, ez nem az átlag embernek/cégnek készül.
#3 kleinguru addikt lionhearted #2

Új Válasz 2012-08-30 10:13:13 #3
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

kleinguru

addikt

válasz lionhearted #2 üzenetére

Okok, ezért (is) gyorsítókártya
De van egy két dolog, ahol párhuzamos számításokra lehet szükség.
Lesz-e mainstream kategóriában is szerepe, vagy csak nagyvállalati eszközként tekintsünk rá?
#2 lionhearted őstag kleinguru #1

Új Válasz 2012-08-30 10:08:25 #2
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

lionhearted

őstag

válasz kleinguru #1 üzenetére

Nekem úgy jött le, hogy a párhuzamos számításokban lesz erős.
#1 kleinguru addikt

Új Válasz 2012-08-30 09:44:41 #1
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

kleinguru

addikt

Gyorsítókártya lesz, ez rendben, de mit fog tudni gyorsítani?

Új hozzászólás Aktív témák

Témaindító hír

Az Intel részletezte a Xeon Phi újításait

Aktív témák

Új fizetett hirdetések

Üzleti előfizetők hirdetései

Állásajánlatok

Értékesítő

Cég: Laptopműhely Bt.

Város: Budapest

Részletek

Laptop Szervizes

Cég: PCMENTOR SZERVIZ KFT.

Város: Budapest

Részletek