-
Fototrend
OLVASD VÉGIG ALAPOSAN MIELŐTT ÚJ HOZZÁSZÓLÁST ÍRNÁL!!!
Új hozzászólás Aktív témák
-
#95904256
törölt tag
Esetleg tudnátok ajánlani Bulldozerhez való mATX-es alaplapokat?
-
#95904256
törölt tag
Hm... vajon mikortól fogja az AMD támogatni az AVX2-őt vagy a 256-bites XOP-ot? A NextGen Bulldozerben lesz BMI, TBM és FMA3, de mi van a 256-bites integer műveletekkel?

-
#95904256
törölt tag
Értem. Ez leolvasható az ábráról? Csak azért kérdem, mert ha komplex számokkal tényleg képes "up to 56x" gyorsabban számolni a Bulldozer, mint a Sandy Bridge, akkor már sejtem, hogy mely utasításokat fogom górcső alá venni ha lesz Bulldozerem...

Egyelőre erősen kétlem, hogy az "up to 56x" a Bulldozerből származik...
Ez akkora szám, hogy az Intelnél fejbelövik a matematikusokat, ha ez így van. -
#95904256
törölt tag
Ha jól értem, akkor ezen az ábrán az AMD megmutatta, hogy az OpenCL-t használó Mandelbrot gyorsabban fut egy több száz gigaflops teljesítményű GPU-val megtámogatott Bulldozeren, mint a konkurencia CPU-ján ami nem használja ki a GPU teljesítményét.
Ez így rendben is van, de ez nem igazán a Bulldozer érdeme...
-
#95904256
törölt tag
válasz
Oliverda
#9907
üzenetére
Még nem találtam róluk semmit.

Addig én is eljutottam, hogy OpenCL, Mandelbrot, FMA4. Ezekről még tudom is, hogy melyik micsoda. De ettől még nekem csak színes oszlopok virítanak a képernyőn.
Pl. mi a különbség a "18 float_vector_fma" és a "19 float_vector_fma" közt?
Hm... 8 piros egységgel jobb a Bulldozer. Ja, elnéztem van az 60 is...
-
#95904256
törölt tag
-
#95904256
törölt tag
(#9879) Abu85: "Az AMD az új platformnál valamit ezen a részen csinálhat, vagy hardverből, vagy szoftverből, de látszik, hogy ha sok a rajzolási parancs, akkor az FX-8150 processzor 2-3%-nál gyorsabb a 980X-nél max grafikán. Ez az ami érdekes. Ilyennek a VGA-limit miatt nem szabadna bekövetkeznie, mégis megtörténik. A rajzolási parancsra azért gondolok, mert ez az egyetlen opció, ami a VGA-limitnél gyorsabb feldolgozást eredményez, hiszen ha gyorsabban van kiadva a parancs, akkor gyorsabban lesz kész a képkocka."
Hadd gyártsak alternatívát.
A 2-3% abból is eredhet, hogy az FX-8150 8 szálon képes x87 / SSEx utasításokat végrehajtani, míg a 980X csak 6 szálon. Az FX-6120 csak... egy tesztet megérne.

-
#95904256
törölt tag
Az eltérő Intel / AMD architektúrák közt simán előfordul, hogy az egyik programkód az egyiken fut gyorsabban, míg a másik kód a másikon. Ennek oka sokféle lehet, nem csak az utasítás throughput és latency értékei. Gondolok itt például a cache-line határra nem illeszkedő adatok kezelése vagy az elágazásbecslők és prefetchere hatékonyságára, stb. Szélsőséges esetben ebből simán összejöhet akár 50% különbség is. Lehet, hogy a Dirt3 és Metro2033 programokban többségben vannak azok a kódrészletek amelyek a Bulldozernek kedveznek. Szóval programja válogatja, hogy ki mit szeret.

-
#95904256
törölt tag
Ez a skálázódás dolog miből adódik?
Mert én eddig úgy próbálom felfogni, hogy pl. egy "VGA-limites" játék esetén is az rendszer összes többi eleme is felelős a felmutatott végeredményért, csak jóval kisebb mértékben. Ha rendszer valamelyik "kevésbé fontos" elemét ( pl. CPU ) felfejlesztem, mondjuk kétszer erősebbre, akkor az segíthet 2-3%-ot. Erről lenne szó?
Gondolom ezzel azt lehet szemléltetni, hogy a 8 mag és a nagyobb órajel mennyi előnyt jelent a 4-6 maggal szemben.
szerk.: Ok, látom közben megemlítetted, hogy ez a nagyobb throughput miatt van. Vagyis lehet reménykedni, hogy a minimum fps-ek magasabbak lesznek.

-
#95904256
törölt tag
válasz
Oliverda
#9850
üzenetére
Még szerencse, hogy egy szóval sem mondtam, hogy a Prohardver!-es cikkben szerepel a "szeptember 26"-ai dátum. Bár úgy látom az tök mindegy mit mondok. Viszont ha
párnéhány sorra feljebb is elolvasnád amit linkeltem, abban ott van.AMD to Formally Unveil Next-Gen Opteron Processors on September 26, 2011
-
#95904256
törölt tag
válasz
Oliverda
#9848
üzenetére
Egy szóval sem mondtam, hogy maradéktalanul megtudhatjuk mire képes a Zambezi. De a fáma ebben a topikban a Bulldozerről szól, nem csak a Zambeziről. Az Interlagos pedig a Bulldozerre épít.
A hír egyébként kb. másfél hónapos, tele van vele a net. Itt az egyik: AMD to Formally Unveil Next-Gen Opteron Processors on September 26, 2011 Talán még itt a Prohardver!-en is volt róla cikk, hogy az Opteronok előbb érkeznek, mint az asztali processzorok.
szerk.: Meg is van: Az AMD az Interlagos szállítását tekinti prioritásnak
-
#95904256
törölt tag
válasz
Zeratul
#9782
üzenetére
Szétválasztáshoz valóban nem kell AVX, hanem egy második szál.
Ismételten jelezném, hogy az egyszálú teljesítményre voltál kíváncsi.(#9782) Zeratul: "Azt meg nem látom be hogy miért csökkentené a integer végrehajtási sebességet 1 szálon a 2way ha a 3way is csak 1.75 utasításra volt kiterhelve, 1 futószalag csak malmozott és ette az energiát."
Pedig egyértelmű a dolog. Az általad említett 1,75-ös érték egy átlagérték. Az utasítások közti függőségek miatt a kétutas rendszerben ugyanaz a kód kisebb átlagértéket fog produkálni. Gyakorlatilag több órajel kell a lefutásához.
-
#95904256
törölt tag
válasz
Zeratul
#9776
üzenetére
(#9776) Zeratul: "Bull FPU vagy dupla mennyiségű műveletet hajt végre a modul 1 futtatási szálához rendelve vagy szétválasztva mindkét szálon azonos mennyiséget."
Ebben igazad van, de... ahhoz hogy ez így működjön AVX utasításkészletet kell használnod. Néhány kérdés: Szerinted mennyi program van a piacon ami AVX-et használ? ( nagyon kevés ). Szerinted mennyi újkeletű program van amit már nem többszálúra írnak? ( nagyon kevés ). Szerinted a két válasz közös halmaza mennyi programot takar? ( nagyon kevés * nagyon kevés = nagyon nagyon kevés ? )
A hozzászólásod második felében pedig egy olyan dolgot vázolsz ami még tovább csökkenti az egyszálú programok végrehajtási sebességét. ( A #9766-ban ugye erre kérdeztél rá? )
-
#95904256
törölt tag
válasz
Zeratul
#9771
üzenetére
Ehhez kérnék egy kis magyarázatot, mert nem látom az összefüggést...
Van két dolog, a throughput ( áteresztőképesség ) és a latency ( késleltetés) amik szorosan összefüggenek a fizikai korlátok miatt. Az egyszálú teljesítmény esetén ez utóbbi a fontosabb, ezért szólt erről a hozzászólásom. Nem értem miért hangsúlyozod, hogy nőtt a throughput.
-
#95904256
törölt tag
válasz
Zeratul
#9766
üzenetére
Szerintem felejtős, hogy az egyszálú teljesítményben jelentősen jobb legyen a Bulldozer a K10-nél. Sőt, az szinte egyértelmű, hogy clock-to-clock lassabb lesz!
A Bulldozert ugyanis úgy tervezték, hogy minél nagyobb órajelet lehessen elérni. Ennek egyik módja, ha az utasításokat minél egyszerűbb, de több lépcsőben hajtja végre a processzor. Vagyis, megnő az utasítások végrehajtási ideje.
Például a szorzás, osztás, összeadás, gyökvonás, stb. műveletek majd másfélszer tovább tartanak a Bulldozeren, mint a K10-es magon! Ezt persze a másfélszer magasabb órajel kompenzálhatja. Az más kérdés, hogy ennek milyen hatása lesz a fogyasztásra...
szerk.: Megjegyezném, hogy az Intel annak idején Pentium4-es NetBurst-tel hasonlót követett el. De sajnos az egekbe szökő fogyasztás miatt náluk megbukott a dolog.
-
#95904256
törölt tag
válasz
Fail3D!
#9569
üzenetére
Valószínűsítem, hogy a C0 steppinggel visszább fogják a fogyasztást. Az első steppinges processzorok szokás szerint rendesen kihasználják a TDP limitet. Mivel már régóta a köztudatban van a C0 stepping, így várható, hogy egy kis türelemmel tuningbarát processzorra lehet szert tenni. ( Bár a hírek szerint a B2 se piskóta...
) -
#95904256
törölt tag
válasz
Lazarus911
#9177
üzenetére
Azért vannak páran akiben már elég jól felgyülemlett a bélgáz...
-
#95904256
törölt tag
válasz
Hakuoro
#9170
üzenetére
Ez elvileg a júniusi, alaplapgyártóknak szánt roadmap.
Valószínűleg náluk már régebbóta vannak B2 steppinges processzorok...Olyasvalakitől várnék választ aki ezzel tisztában van.
Oliverda: Akkor még várok egy-két hónapot a vásárlással. Idén már úgy sem lesz időm, hogy alaposan kipróbáljam a Bull-t...
-
#95904256
törölt tag
válasz
whiteman0524
#9136
üzenetére
Attól, hogy 95W-os vagy 125W-os TDP osztályba sorolt FX-8120-ról beszélünk, a mérhető fogyasztásbeli különbség alig pár watt lesz. Szerintem épp ennyivel többe is fog kerülni a 95W-os példány. ( Pl. az Intel processzorok esetében évtizedekben mérhető a megtérülési idő.
) -
#95904256
törölt tag
válasz
whiteman0524
#8969
üzenetére
Én is pont ezért néztem be.

De csak újabb trollozások...
-
#95904256
törölt tag
-
#95904256
törölt tag
válasz
Remus389
#8583
üzenetére
(#8583) Remusz911: "van fogalmad mekkora projekt kifejleszteni egy processzor architektúrát?"
Képzeld, nekem van.
Hogy egy példát felhozzak, nézz utána a Godson / Loongson processzornak. Ennek a processzornak az alaptörténete, hogy a kínai kormány az "amerikai" CPU-függőség elkerülése érdekében indított egy MIPS alapú projektet a kínai tudományos akadémián. A fejlesztéssel-gyártással együtt kb. 200 ember dolgozott rajta. Az utóbbi időben ugyan hízhatott a létszám ( mióta x86 kompatibilissé tették ( Loongson néven )). A jelenlegi 8 magos Loongson 3B becsült teljesítménye 256GFlops, igaz csak 1GHz körüli órajelen.
De akár felhozhatnám a Zilog példáját is. Akkor sem kellett minden tranzisztorra egy mérnököt állítani...
-
-
#95904256
törölt tag
válasz
Remus389
#8575
üzenetére
(#8575) Remusz911: "ilyen kis cég esetén"
Ez a kis cég 7 milliár dolláros forgalmat bonyolított tavaly, 11.100 alkalmazottal.
Összehasonlításképp mondom, hogy a legnagyobb magyar cégként emlegetett ( 15%-ban magyar tulajdonú ) MOL esetében ez 16 milliárd dollár és 32.000 alkalmazott. Tehát az AMD nem is olyan kicsi cég...
-
#95904256
törölt tag
Olvastam valami olyasmit, hogy a Bulldozer lebegőpontos egysége az integer magokénál alacsonyabb órajelen fog futni. Ez igaz?

-
#95904256
törölt tag
Az FPU működésére vonatkozó rész csak találgatás vagy hivatalos infóból származik?
A #7897-ben linkelt ábra szerint 4x64 bites FADD és 4x64 bites FMAC lesz a Bulldozerben. Nem lehet, hogy a modulon belüli két mag külön-külön garázdálkodhat két-két 2x64 bites FADD és FMAC egységekkel? Csak AVX utasítás esetén kellene összefűzni a két egységet. Az általad említett újrafordítós dolog ( két programszál együtt működjön ) ugyanis elég macerásnak tűnik. Ha jól értem, akkor ebben az esetben a programozónak arra is figyelni kellene, hogy a két programszál egy modulon belüli két magra kerüljön futtatáskor.

-
#95904256
törölt tag
válasz
Tibicsucsu
#6877
üzenetére
Eh... Azt hittem szándékos volt.
1 EUR ~ 286 HUF
-
#95904256
törölt tag
válasz
Tibicsucsu
#6874
üzenetére
286... 
-
-
#95904256
törölt tag
válasz
zsolt320i
#6713
üzenetére
Nem értek veled egyet. A cél mindenütt az, hogy jól legyenek megcsinálva a dolgok. Valamit jól megcsinálni csak akkor lehet ha ráfordítottad a szükséges időt. Rosszul megcsinálni lehet hamarabb is. Ebből szerintem elég egyértelmű, hogy a minél jobban szeretnél valamit megcsinálni annál több idő kell hozzá. Az más kérdés, hogy ki milyen hatékonysággal használja fel az erőforrásokat.
-
#95904256
törölt tag
válasz
zsolt320i
#6710
üzenetére
(#6710) zsolt320i: "1. ha fejlesztek nem mindegy hogy milyet fejlesztek, ugyanannyi időbe és munkába kerül egy jót is kifejleszteni meg egy "szart is", szal közel a zs is amit bele kell ölni ugyanaz"
Ezt most viccnek szántad vagy tényleg ennyire homályos a dolog?
(#6710) zsolt320i: "biztos hogy növekedne, a "core" mérete nagyobb az amd magjánál?"
Éppenséggel lehetne fejleszteni olyan technológiát is ami egyben csökkenti a méretet és növeli a hatékonyságot. Ezeket a "kombinált fejlesztéseket" hívják alapkutatásoknak és a világon a legköltségesebb és legidőigényesebb móka. Tehát ha olcsón akarod megúszni, akkor muszáj lesz helyet biztosítani az extra tranzisztoroknak...
-
#95904256
törölt tag
Szerintem az Intel féle HT-nél nincs fő és alárendelt szál. Ha így lenne, akkor az hamar kiderülne egy egyszerű teszttel. Egyszerűen el kell indítani mndkét szálon egy olyan programot ami alaposan kihasználja az erőforrásokat. Ekkor az alárendelt szál jelentősen lassabban futna, de nem így van. Mindkét szál közel egyforma mértékben lassul vissza, ami attól lehet, hogy az erőforrások kiosztása egyenletes. Azaz a két szál egyenrangú.
-
#95904256
törölt tag
válasz
Oliverda
#6585
üzenetére
Köszönöm, hogy összeszedted az infókat!

Ez így valóban más megközelítést sugall, mint ahogy elsőre gondoltam. Érdekes és jelentősen eltérő megközelítése az erőforrások kezelésének az SMT-hez képest.
Kíváncsi vagyok, hogy fog teljesíteni. Szerintem várható, hogy mindig az SMT előtt lesz. A plusz tranzisztorok helyigénye pedig nem lesz túl jelentős. Szóval, jónak tűnik.

-
#95904256
törölt tag
válasz
Oliverda
#6583
üzenetére
Köszönom a tippet! Visszatekertem és elolvastam azt amit a CMT-vel kapcsolatosan találtam, de némiképp homályos maradt a dolog. Olyasmi kép állt össze bennem, hogy a CMT egy programszál egymást követő utasításait lesz képes külön-külön végrehajtó egységeken is futtatni.
Szerintem az SMT bevezetése hatékonyabb lenne, mert már a mostani processzormagok is képesek egy órajel alatt akár 4-5 utasítás végrehajtására. Tapasztalatok alapján a throughput elméleti maximumának további növelése már nem okozna jelentős javulást a valós IPC értékeken. De az is lehet, hogy épp a CMT lényegét nem sikerült megértenem.

-
#95904256
törölt tag
Sziasztok!
Hol lehet találni arról valami információt, hogy mikor és milyen név alatt dob a piacra az AMD olyan processzort ami hardveresen több szálat képes futtatni egy magon? Amolyan Intel HyperThreading módjára...
-
#95904256
törölt tag
válasz
Bluegene
#6369
üzenetére
(#6369) Bluegene: "tetszik nem tetszik az Intel Atom vadi új fejlesztés"
De áruld már el végre, hogy mitől vadi új az AMD processzorok meg nem...
Attól, hogy nem Pentium a neve és így új sorba írták?
Az Atomot csupa meglévő fejlesztésből ollózták össze.
A K10 -> K10.5 több újdonságot tartalmaz.
-
-
#95904256
törölt tag
-
#95904256
törölt tag
válasz
csatahajós
#5325
üzenetére
"De komolyan, az AMD nevezéktanát kitaláló emberkét be kéne zárni"
Én csak átnevezném. Aztán ha megszokta, akkor újra...
-
#95904256
törölt tag
válasz
slett27
#5312
üzenetére
Ezt a kérdést nem igazán értem. Az IPC-vel minden összefügg. Pontosabban az IPC függ mindentől. Minél több és gyorsabb a körítés, annál magasabbra szökhet az IPC értéke. Persze az átlagos IPC érték sokkal beszédesebb mint a maximum érték, viszont ezt nehezebb mérni, mivel minden program alatt más.

-
#95904256
törölt tag
válasz
slett27
#5307
üzenetére
Ha ugyanolyan órajelen az 45nm-es gyorsabban futtat le egy programot ( pl. SuperPI 1M teszt ) mint a 65nm-es, akkor biztos hogy nagyobb az IPC is, hiszen ( kb. ) ugyanannyi utasítás végrehajtásához kevesebb időre volt szüksége. IPC = utasítások száma / végrehajtási idő.
Azt pedig már láttuk az előzetes tesztek alapján hogy a SuperPI kb. 10%-kal gyorsabb a 45nm-es magokon. Persze ez lehet hogy csak a nagyobb L3 hatása, de akkor is nőtt az IPC.
-
#95904256
törölt tag
válasz
VaniliásRönk
#5259
üzenetére
Azért meglepő hogy működőképes SRAM cellák gyártása után még három év mire processzorok lesznek belőle. Persze értem én hogy minősíteni, finomhangolni, utóellenőrizni, tartós tesztelni, stb... kell a dolgokat. De kíváncsi lennék hogy egy ilyen csúcstechnológia esetében melyik az a folyamat amit nem lehet a beleölt pénz mértékével többé-kevésbé arányosan felgyorsítani.
-
#95904256
törölt tag
válasz
Andre1234
#5248
üzenetére
Nálunk meg épp az USB-s konverterek nem váltak be, pedig vagy fél tucattal kipróbáltunk. Aztán rászántuk magunkat azokra a dual portos PCMCIA-s kártyákra melyek nem lógnak ki a gépből. Azok mindegyikével ment eddig minden kacatunk ( PLC-k, szervók, szabályzók... ).
A beszerzendő 486-osok listája még elég hosszú ( AMD: SX-33,SX-40,DX2-50,DX2-66BGx; Cyrix: S25,DX2-50 és DX2-66 Writeback hűtőborda nélkül,DX2v50,DX2-66,DX2-80; IBM: DX2-50,DX2-80,DX4-75; Intel: DX25,DX2-40,DX-50,DX2-50,DX2-66(SX955),DX4-75,DX4-100,SX2-50,SL-20,SL-25,SL-33; SGS-Thomson: DX2-40,DX2-50,DX4v100,DX4-120,DX4v120; Texas: SXL-33,SXL2-40/50/60,SXLC-25/33,SXLC2-40/50; UMC: DX2,U5S-SUPER25/33/40,U5SD-25/33 ). Az 5x86-os lista már rövidebb ( AMD: P75+,P100; Cyrix: 120,133; IBM: 75,120; SGS-Thomson: 120 ). Pentiumból jelenleg csak a POPD5V63 érdekel.

-
#95904256
törölt tag
Én is ismerek olyan világcéget amelyik megvette egyik másik világcég konkurens részlegét, és mégis, egy év után is alig csurog-csöpög az információ a különböző -, nem csak a fejlesztői, de a termelésirányítási - részlegek közt. Gondolom ilyesmire gondolot slett27 is. Persze AMD-vel kapcsolatosan olyan embertől kellene ezt megtudakolni, aki oda bejáratos.

-
#95904256
törölt tag
válasz
Oliverda
#5147
üzenetére
A Via Isaiah (Nano) kapcsán merült fel egyszer hasonló kérdés. Ott az 1MB-os cache lesz 16 utas. Akkor sem tudtuk eldönteni mire lesz igazán jó, de talán P.H. fórumtárs megjegyzése állhat a legközelebb a jó megoldáshoz. Valószínűleg a több processzoros rendszerekben ez jól jöhet. ( Minél több társprocesszor kívánja megcímezni az adott processzor memóriáját, az annál jobban "töredezik". A sokutas cache jobban viseli ezt. )
-
#95904256
törölt tag
válasz
Raymond
#5125
üzenetére
Hm, nem tudtam hogy imádják a C2 tulajok a SuperPI-t, illetve az FSB-s összefüggéssel sem vagyok tisztában. ;)
Viszont azt nagyjából tudom mit is csinál a SuperPI. A Gauss-Legendre algoritmus segítségével interpolálja PI számjegyeit, vagyis minden egyes közelítésnél az előző ( vagy kiindulási ) eredményeket használja fel. Ez persze önmagában nem magyarázza a stream jellegű feldolgozást. Ehhez még azt is tudni kell hogy olyan sokjegyű számokat ábrázol a memóriában a program ( bináris formában ), amelyek jóval túlmutatnak a lebegőpontos egység pontosságán. Az ilyen számokat meg csak úgy lehet feldolgozni ha a program egy-egy számcsoportot dolgoz fel egyszerre ( ami befér pl. az FPU-ba ) majd a részeredményeket görgeti magaelőtt. Vagyis szekvenciálisan dolgozza fel az adatokat.
szerk.: Megjegyzem, egyetlen algoritmus kivételével nincs olyan eljárás amivel PI számjegyeit úgy lehetne megkapni hogy ne kelljen tárolni és dolgozni az előző számjegyekkel. De ennek a kivételes algoritmusnak is nő a memóriaigénye a kiszámolandó számjegy pozíciójával összefüggően.
-
#95904256
törölt tag
válasz
Oliverda
#5119
üzenetére
Igen, az már könnyebben elképzelhető.
Épp számolgattam hogy ha nálam a Phenom 9600-as 30,2 másodperc alatt végzett 2545MHz-en, 1018MHz-en járó RAM-okkal az 1 megás teszttel, akkor ugyancsak pörögni kellett ott a ferdeszeműeknél valaminek, mert lineáris gyorsulást feltételezve is csak (=30,2 * 2545 / 3484) 22,06 másodperc jön ki, a RAM-ra meg 1394MHz. Ha azt veszem hogy az L3 cache 6MB-ra bővítésén kívül nincs más teljesítményt növelő változtatás, akkor az a +4MB L3 cache, legalább 10% gyorsulást jelent!!!
-
#95904256
törölt tag
válasz
Sandormaster
#5114
üzenetére
Egy 1066-os RAM-mal megtámogata... Super PI 1M tutira 20s alá vihető...

-
#95904256
törölt tag
válasz
Andre1234
#5104
üzenetére
Annyit tudok mondani hogy többféle technológiai korlát akadályozza ennek a gyártási csíkszélességnek a csökkentését. A következő lépcsőfoknak mérete / értéke mindig egy fejlesztés vagy inkább több részfejlesztés eredménye. Ezeket az értékek úgy választják meg, amit a legújabb technológiával biztonságosan lehessen gyártani. Aztán persze rengeteg idő mire sorozatgyártásra alkalmas gépek lesznek belőle. Lehet hogy addigra a kutatólaboratóriumokban még 1-2 lépcsővel előbbre járnak. Szóval biztos hogy nem úgy jönnk ki ezek az értékek hogy a hasukra csapnak vagy valamiféle matematikai képletből...
-
#95904256
törölt tag
válasz
goodboy007
#5035
üzenetére
Szerintem ez a kérdés nem ebbe a témába tartozik.
Próbáld meg az "azonnali alaplapos kérdések" témában felhozni. -
#95904256
törölt tag
válasz
dangerzone
#4997
üzenetére
Az AMD Athlon XP klub a te helyed...
-
#95904256
törölt tag
válasz
band1103
#4987
üzenetére
Miért van az hogy az AMD cpuinak sokszor a fele vagy a negyedakkora a gyorsítótárja mint az Intel cpuinak?
Felépítésbeli különbség miatt az AMD processzoroknál kevésbé számít a gyorsítótár méretének növelése. Pl. a beépített memóriavezérlő és az exclusive cache szervezés miatt ( egy adat csak egy helyen szerepelhet a gyorsítótárban ).
Nem gyorsítana a cpun ha több lenne?
De igen. Csak ez nem olyan egyszerű hogy megszorzom kettővel...

-
-
#95904256
törölt tag
válasz
Balala2007
#4973
üzenetére
Szép...
...és logikus.Most hazarobogok és kipróbálom újra.
Rettentő nagy baromságnak tűnik amit leírtam. -
#95904256
törölt tag
Ez szép, de gyakorlatban hány utasításnyi hosszra szoktak elhúzódni az alapblokkok? 3-5? 10? Meg hány utasítás forog egyszerre feldolgozás alatt? Tipikusan néhány tucat? A SUN-féle megoldás azért új, mert ennél jóval nagyobb távokról is szó lehet, a dolog nincs a VÁ hosszához kötve.
Bevallom ezt nem egészen értettem. Mit értesz alapblokk alatt? Egy mag (AMD/Intel) egyszerre egy-öt utasítást képest feldolgozni, de az ICU/ROB-ban egyszerre 20-30 x86-os utasítás fér el. Ha az egyik várakozik, attól még az ICU/ROB képes új utasításokat fogadni. Mi itt a kritikus dolog?
A SUN-féle megoldás becsapós. Mivel in-order így egyszerre csak egy utasítást hajt végre, ha az várakozásra kényszerül akkor a kisegítő szál képes foglalkozni egy második utasítással. Ha az is megakad, akkor nincs tovább, akkor bizony várni kell. Az AMD/Intel megoldás esetén pl. ha az ALU és a FADD foglalt, akkor még mindig lehet memóriaműveletet végezni vagy éppen a FMUL-t bizgetni.
Egyszerűen nem látom hogy hol jön össze előny az AMD/Intel megoldáshoz képest. Illetve az látszik hogy kevesebbet fogyaszt, de a scout-thread-es dolog csak félig-meddig pótolja az out-of-order vezérlőt.
-
#95904256
törölt tag
Előbb kipróbáltam ezt a cache-miss dolgot egy Phenom-on és egy Wolfdale-en is. Mindkettő képes volt arra hogy amíg a cache-miss miatt bejön a RAM-ból a dolog addig több száz utasítást ( add, xor, inc, fld, fstp, ... ) végrehajtsanak, így a több száz utasítással és azok nélkül is ugyanannyi volt a futásidő.
Majd kerestem egy UltraSparc T1 leírást, amiből kiderült hogy ez a processzor in-order végrehajtással rendelkezik, de képes arra hogy pl. egy cache-miss-nél egy másik szálon (scout-thread) tovább futtassa a további utasításokat. Kvázi out-of-order végrehajtást csinál úgy hogy befog egy másik egységet a feladatra.
Ez akár egy működő példa is lehet fLeSs által is felvázolt több mag közti utasítás szétosztásra.

-
#95904256
törölt tag
Hm... A vastagon kiemelt részeket dokumentáció vagy analízis alapján mondod?
Próbáltam utána keresni a Niagara benchmark értékeinek, de csak ilyesmit találtam. Ezek szerint a Niagara nem tűnik csodának, bár a fogyasztása kétségtelenül a legjobb. Ebből viszont arra következtetnék hogy amennyira csak lehet kerüli a plusz munkát. Már pedig a "néhány ezernyi utasítás" becslésen alapuló előfeldolgozása ugyancsak tranzisztor melengető dolognak tűnik...
-
#95904256
törölt tag
-
#95904256
törölt tag
En csak annyit akartam mondani, hogy az Inteles HT megoldas nem futtat gyorsabban egyszalas progit attol, hogy ugy tunik, mintha ket proci lenne. Ami ugye raadasul nem is ketto, csak 1,x...)
Értelek. Egy trabantba se tudsz gyorsabban beszállni attól hogy két ajtaja van...

-
-
#95904256
törölt tag
Attól hogy azt mondom "Intel féle hyperthreading" az nem azt jelenti hogy fele annyi erőforrás, mint a nem Intel féle megoldás.
Mivel az X2-esed kétszer annyi erőforrással rendelkezik mint az Intel processzorod, így nem csoda ha egy erősen párhuzamos feldolgozást végző algoritmus kétszer gyorsabb fut rajta. Vagy tévedek?

Új hozzászólás Aktív témák
A topikban az OFF és minden egyéb, nem a témához kapcsolódó hozzászólás gyártása TILOS!
Az ide nem illő hozzászólások topikja:[link]
MIELŐTT LINKELNÉL VAGY KÉRDEZNÉL, MINDIG OLVASS KICSIT VISSZA!!
A topik témája:
Az AMD éppen érkező, vagy jövőbeni új processzorainak kivesézése, lehetőleg minél inkább szakmai keretek között maradva.
- i3-8100 és i3-8100T - stabil, gyors, megbízható - ideális otthonra vagy irodába
- BESZÁMÍTÁS! Akár részletfizetés 0% THM ÚJ Intel LGA 1700 processzorok 3 év garanciával 27% áfaval
- Eladó INTEL Core i9-13900K 3.0GHz LGA-1700 BOX BX8071513900K
- Intel I5-8400 / 8400T / Akciós!
- AMD Ryzen 7 9800X3D - 2 év garancia
- Jó ÁRON ELADÓ! Üzleti HP Elitebook 1040 G9 Laptop! / i5-1245U 16GB 256GB FHD
- Beszámítás! VALVE Steam Deck OLED 512GB SSD kézikonzol garanciával hibátlan működéssel
- iPhone Xr 64GB 100% ÚJ EREDETI AKKUMULÁTOR Gyűjtői darab (3hónap Garancia)
- ÚRIS10!!! RAMÁRON! LEGION 5 i7-13650HX 16GB RAM 512GB SSD RTX 5070 8GB 2K OLED 165Hz 500NIT
- Lenovo ThinkPad T440,14",HD+,i5-4200U,8GB RAM,500GB SATA3 HDD,WIN10
Állásajánlatok
Cég: Laptopműhely Bt.
Város: Budapest


![;]](http://cdn.rios.hu/dl/s/v1.gif)













szép!

