Új hozzászólás Aktív témák
-
ddekany
veterán
válasz
julius666 #23 üzenetére
"Az épülő új giga datacenterek ahhoz kellenek, hogy nagyobb modelleket lehessen trainelni, nem ahhoz, hogy "gyorsabban" letrainelhető legyen ugyanaz"
Több tréningezést tudsz párhuzamosan futtatni mindenképp... Az adatközpont összekapcsolást is igénykő gigászi modell tréninggel nem tudom mi van. Ha azt látnák, hogy az nem kell, akkor enélkül építik. Az sem sokkal kisebb befektetés anyagilag.Star Gate és társainál én nem tudom, hogy hány % inference-re, és hány % trainingre számítanak valójában. Hiszen arra számítanak, hogy kielégíthetetlen igény lesz felhasználói oldalon is (inference). Tudtommal H200-on az is jól fut. Klíma, energiaellátás, gondolom ugyan csak jó mindkettőre. Amúgy a betanító anyagok (feladatok) előállítása, a tréningezés során a kimentek értékelése is inference.
-
julius666
addikt
Az új "természetes" nyersanyag szűkös lett, de ez nem lett végül fal, mert elmentek abba az irányba, hogy jobb betanító anyagot generálnak, és az abból tréningezett model még jobbat, stb. Ez várható is volt[...] (Az a félelem meg nem igazolódott, hogy ettől csak becsavarodik a model.)
Ha félelem volt akkor nem volt várható.
Egyébként ahonnan én nézem, a GPT-4 óta nem történt akkora általános előrelépés LLM-ek terén. Azokon a területeken történt, amik feküdnek a RL-nek mert könnyen validálható az eredmény: logika, matematika, kódolás. Itt is főleg a jól megfogható, vizsgaszerű feladatoknál (benchmarkokban emberi fejlesztők szétalázva, miközben gyakorlati feladatoknál továbbra is vegyes a kép). Itt is az igazi ugrás a reasoning volt, nem az, hogy nagyobb modelleket traineltek és tovább.A pletykák szerint besültek mind az OpenAI (Orion), mind az Anthropic következő generációs (nem reasoning) LLM trainingjei tavalyi év során. A szintetikus adatok mégsem váltak be, egyszerűen nem lettek annyival intelligensebbek a kimeneti modellek mint várták tőlük, inkább csak iteratív előrelépést jelentettek a meglévőkhöz képest. Ezért sem látott belőlük a publikum eddig semmit, nem lett volna rentábilis rájuk engedni a felhasználókat. (Gondolom inkább disztillálták őket kisebb modellekre + némi reasoning, ebből született a Sonnet 3.7 meg a napokban várható GPT-4.5, amik az említett cégek szerint is inkább csak iteratív előrelépések mint generációs ugrások)
Ha csak a tréningezést is nézzük, akkor is minden előny kell. Ha 10x olyam hatékonyan tudsz tréningezni, attól még 2x annyi vassal 2x olyan gyorsan leszel vele kész, vagy 2x annyi módszert tudsz kipróbálni. A késleltetés márpedig igen csak fontosnak tűnik.
A (pre)training az, aminél nagyon sok nagyon combos vas kell, egyszerre, jó szorosan összedrótozva (extrém sávszél + késleltetés igények). Az épülő új giga datacenterek ahhoz kellenek, hogy nagyobb modelleket lehessen trainelni, nem ahhoz, hogy "gyorsabban" letrainelhető legyen ugyanaz, vagy több training futhasson párhuzamosan. Utóbbi megoldható lenne több kisebb datacenterrel is, kevesebb fejfájással az energiaigények meg építési költségek terén.
Inferencehez (ami a reasoning modelleknél igazán számít) meg nem hogy hatalmas datacenter nem kell (több kisebb oda is elég), de feltétlenül a legújabb nVidia vas se.
tl;dr: az egyre nagyobb datacenterek a végtelensok egyre combosabb nVidia GPU-val "bármi áron" szcenárió inkább a pretraining scalinghoz kötődik, akörül meg azért megjelentek kérdőjelek.
-
julius666
addikt
A clickbait cikkekben írt extrém szorzók kapcsán pontosan ez történt amit írtál: a DeepSeeknél csak a konkrét futtatás költségeit rakták a nevezőbe, míg a nyugati AI cégeknél a teljes költséggel számoltak.
A valóságban nincs nagyságrendi szorzó a DeepSeek meg a nyugati cégek közt. Ettől még persze valid az alap állítás, hogy a DeepSeek olcsóbban utolérte a nyugati top AI labokat.
-
ddekany
veterán
válasz
julius666 #18 üzenetére
"meg hogy kiderült, Kína nincs nagy lemaradásban"
Mindegyik félre vonatkozik, hogy sokkal olcsóbb/gyorsabb a más által már kitaposott úton kocogni, mint elől keresni az utat a bozótban. Így ha valaki új utat talál, nemsokára ott ugrál a többi mögötte. Ez persze lépéshátrány a követőknek, de ilyen gyorsan fejlődő területen időben ez nem jelent nagy távolságot.
"Egyre inkább úgy tűnik, hogy az eredeti pretraining scalingnek vége ahogy kifogytunk a nyers adatokból"
Az új "természetes" nyersanyag szűkös lett, de ez nem lett végül fal, mert elmentek abba az irányba, hogy jobb betanító anyagot generálnak, és az abból tréningezett model még jobbat, stb. Ez várható is volt, mivel a tudás ott van a sok nyersanyagban, csak "gondolkodni kell rajta", hogy megtalálja a szétszórt vagy explicit nem is említett összefüggéseket, kiejtse a téves információt, stb. (Az a félelem meg nem igazolódott, hogy ettől csak becsavarodik a model.)
"Nem véletlen, hogy mindenki reasoning irányba mozdult el (test-time scaling)."
Ez eleve szükségszerű lépés volt, már az első ChatGPT idején is tudtuk. Hiszen a kérdés nehézségtől függ, hogy mennyi számítás szükséges, és nyilván sokszor kell iteratívan gondolkodni.
Az mondjuk nem nyilvánvaló, hogy ezért sok tokent kell generálni (hangosan gondolkodni), vagy a belülre kellenek feltételesen iterálós részek. Van utóbbira is már próbálkozás amúgy, mert hatékonyabb (nem kell angolra "lekerekíteni" az árnyalt gondolatokat). Viszont, ott már annyi esélyed sincs belenézni a fejébe az AI-nak, hogy mit miért mond, mint most. (Az Anthropic tanulmánya szerint most is sokszor nem "őszinte", amit gondolkodást kiír, vannak rejtett okai a válasznak. De most még legalább nem tud 4D sakkot nyomni a háttérben, mert belül nem iteratív.)
"Ez az épülőfélben lévő gigaprojektek értelmét megkérdőjelezi"
Ha csak a tréningezést is nézzük, akkor is minden előny kell. Ha 10x olyam hatékonyan tudsz tréningezni, attól még 2x annyi vassal 2x olyan gyorsan leszel vele kész, vagy 2x annyi módszert tudsz kipróbálni. A késleltetés márpedig igen csak fontosnak tűnik.
-
bambano
titán
válasz
julius666 #18 üzenetére
"Amúgy az valid, hogy olcsóbban trainelték a nyugati cégekhez képest": nekem végig az mocorgott a fejemben, hogy mit értettek bele a trainingelés költségébe.
Mert ha van egy szép zöld mező, holnap jönnek a buldózerek, és a végén van egy adatközpontod, trainingelt ai-vel, akkor az drága lesz.
Ha meg van egy adatközpontod, tele géppel, aminek a költségeit már leírták más projektekben, és akkor most gyakorlatilag költségelik az áramot, az lehet nagyon olcsó.
Egy jó könyvelő bármit kihoz ugyanazokból a számokból.
Ez a gondolat persze rögtön le is lövi az összes clickbait cikket. -
julius666
addikt
Így van. Ezek a kis finetuned R1 vackok borzasztóan gagyik amúgy az eredeti modellhez képest. Nem is értem miért adta ki maga a cég ezeket, eléggé nem méltó az amúgy elért eredményeikhez amit ezek tudnak, ilyenekkel hobbisták szoktak bohóckodni. Persze ha az volt a cél, hogy a 15 perc hírnév során már lehessen "akár a laptopodon is futtatható!!!!" clickbait címekkel hülyíteni a népet, akkor érthető...
Amúgy az valid, hogy olcsóbban trainelték a nyugati cégekhez képest (még ha nem is annyival mint a clickbait cikkekben szerepelt), meg hogy kiderült, Kína nincs nagy lemaradásban. Viszont a közvélemény (meg a piac) reakciója a GPU keresleti várakozásokra vonatkozóan számomra vicces.
Az ugyanis nem véletlen, hogy a lassan 2 éves ígéretekkel szemben nem kaptunk eddig GPT-5-öt. Egyre inkább úgy tűnik, hogy az eredeti pretraining scalingnek vége ahogy kifogytunk a nyers adatokból (internet, nyilvánosan elérhető könyvek). Nem véletlen, hogy mindenki reasoning irányba mozdult el (test-time scaling). Habár az utóbbi is compute intenzív, de nincs már hozzá szükség ordenáré nagy GPU clusterekre, sőt, kevésbé kötött nVidia gyorsítókhoz is. Ez az épülőfélben lévő gigaprojektek értelmét megkérdőjelezi, nem lehetetlen, hogy az aktuális hír is ehhez kapcsolódik. A MS kevesebb traininggel számol és így több kapacitása marad inferencere, extra bérelt kapacitásokra már nincs annyira szükség.
Ehhez képest a DeepSeek sztori kifejezetten bullish nVidia szemszögből. 2023-ban még temérdek AI lab volt versenyben, viszont nem tudták tartani a lépést, sorra estek ki a mezőnyből. Most hogy (szigorúan nVidia alapon!) a DeepSeek megmutatta hogy utol lehet érni reális költségből a top versenyzőket (sőt, megosztotta a módszertant is), hirtelen újra versenybe került sok szereplő, megtámasztva az nVidia alapú számítási kapacitás igényt. Pl. Európa is újra a térképre került ezzel, holott minket már mindenki rég leírt.
-
ddekany
veterán
Azóta elérhető lett az Anthropic-től a Claude 3.7 is. Pro előfizetéssel van gondolkodós módja, és megnézheted a gondolkodást is (nem csak az összegzését, mint OpenAI-nál), úgy mint DeepSeek R1-nél. Azt se az R1 kiadása óta fejlesztették ki gyorsan, az tuti.
De a pletyka, hogy hamarosan jön az új DeepSeek gondolkodós verzió, és valószínűleg akkor ez lesz a legerősebb átlag embernek elérhető model, és így tovább.
-
kilua
senior tag
Azért a deepseekes pofon után elég gyorsan vissza jöttek az amcsik
-
ddekany
veterán
-
ddekany
veterán
LLM distillationra van rakás cikk, bár van szórás, hogy ki mit ért alatt.
Amúgy, I withdraw. Hugging face leírás alapján ezek a kisebb modellek nem is úgy lettek az Qwen 1.5B, 7B, stb. és LLaMa 3.3 8B, 70B-ből, hogy ugyan azt a tréninget nyomták le, mint amit DeepSeek V3, hogy elérjen R1-ig. Ez inkább afféle fine tuning azokon a modelleken, a rendes nagy R1 kimenetei alapján. De szóval, nem maga a DeepSeek R1 lett összepréselve, hanem az említett másik kisebb modelleket tanították arra, hogy utánozza a kiementét.
1,58 bitnél azért gyanítom már erőst érződhez a minőség vesztés.
-
arpad
csendes tag
Bocs de nem beszéljünk balgaságokat, nincs desztilált modell, csak a llama 3.1-3.3 és a különböző qwen modellek finomhangolt változatai, amit megtévesztő módon desztilált modellnek hívnak. Ezek valójában csak finomhangolt modellek.
Például:
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8BEz egy a deepseek által okoskodásra finomhangolt Llama 3.1 8B modell.
Itt van az össze Deepseek-R1 modell:
https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d -
JasL
őstag
Igen. Csak amit tudsz futtatni normális otthoni gépen, pl a 7B vagy 8B model, már kicsit "töri a magyarot"
Ezek a rendes 671B nagymodellből lettek zsugoritva (desztillálva), de nyilván ha "hülyítesz" egy modelt, hogy kisebb helyen elférjen meg gyenge vasobb is fusson, akkor annak van következménye, és az ez. A qwen meg a llama kicsit más... amúgy nyugodtan kérdezz ilyeneket az AI-tól, tök jól meg fogja neked válaszolni ezeket
-
arpad
csendes tag
A #6-is hozzászólásban van leírva a tuti. Nincs igazi desztiláció... (hozzáteszem LLM esetében még nem is hallottam róla)
Egyébként 24 GB vram-on + 80 (inkább 128) ramon elfuttathato az unsloch féle Deepseek R1 671B - 1,58B kvantált változat. Mondjuk iszonyat lassú...
https://docs.unsloth.ai/basics/tutorial-how-to-run-deepseek-r1-on-your-own-local-device/deepseek-r1-dynamic-1.58-bit -
kilua
senior tag
Nem desztillált víz, hanem disztillált modell 🙃
Szerk.: ja tévedtem. Tényleg desztillálás magyarul.
-
ddekany
veterán
A 70B-s az tudtommal egy 70B-s LLaMa, amit aztán gondolkodásra ("But wait!"-oldásra
) tréningeztek. Hasonló módszerrel, mint ahogy DeepSeek V3-ból a rendes nagy R1-et. Nem tudom miért ragasztják a kisebb R1-ekre a mindenhol a "desztilláció" szót. Az régen egy specifikusabb model összenyomási módszerre utalt, ami nem ez. Ez talán csak olyan, mint az Ukrán ritkaföldfémek, ami valójában nyilván nem ritkaföldfémek (lásd akárhol, fix, hogy a periódusos rendszerben mik azok), de valamiért mindenki mint a papagáj azt ismételgeti, pedig csak általánosabban értékes föld alól kinyerhető nyersanyagokról van szó. Agyrém.
Mellékesen, a ~450GB-t igénylő DeepSeek már 4 bitesre kvantált. Nem tudom a benchmarkokhoz mit használtak, de talán 8 biteset, ami akkor 2x annyi VRAM.
-
pengwin
addikt
Egy 4-bites kvantizálású, 70 milliárd paraméteres DeepSeek desztillációt talán tudsz már futtatni notin, csak jó lassan - kell hozzá kb. 45 GB RAM, de már talán nem használhatatlanul lassú CPU-n futtatva.
MOndjuk szerintem a legviccesebb az volt, hogy az NV árfolyam esett a DeepSeek bejelentés hatására...
-
doooo
veterán
Ezt mondtam én is egy hasonló topicban. Semmi nem igaz abból, amit a DeepSeek körül terjesztenek. Propaganda és káosz-kreálás. A KKP van mögötte, szinte korlátlan pénzzel (Kínában amúgy is olcsóbb minden, eleve nem lehet az árcédulákat kiegyenlíteni, de ebbe most ne is menjünk bele). Annyira sablonos módszer, és még most is bedőlnek nekik állandóan.
-
ddekany
veterán
80 milliárd USD idén nem úgy hangzik, hogy befékeznek AI téren...
"A DeepSeek óta a befektetők egyébként is megkérdőjelezik, hogy kell-e ennyit költeni AI-ra"
Hatalmas gyökérnek kell ahhoz lenni, hogy valaki, akinek ez fontos, azóta se jött rá, ez mekkora baromság. Ugye ez a hit 3 dolgokból jött anno. Egyik hogy notebookon is elfut a DeepSeek R1, ami hazugság (vagy pedig nekik ~450 GB VRAM-os GPU-van a notebookjukban). Aztán, az ár alacsony amiért kínálták... ki tudja milyen állami segítséggel, és jééé, tán egy hét se telt el, az OpenAI-nál is esett hatalmasat tokenenkénti ár, az o3-minivel. A másik, hogy milyen olcsó volt kifejleszteni... A DeepSeek akár hazudhatna is (a Kína állam AI téren évek óta ezerrel nyomja a propagandát is, nem csak a fejlesztést), DE, valójában még ők sem állították azt, amit a nyugati média! Ők csak azt írták, hogy a DeepSeek V3-ról (ami GTP-4o szintje nagyságrendileg) fejlesztettek tovább az R1-re annyiért. De hát kit érdekel manapság a valóság...
-
bambano
titán
Az ms felépíti a saját adatközpontjait, ezért lemondja a bérleteket.
Micsoda meglepetés, breaking news! -
jeni
félisten
A Microsoft-n kívül MÉG vagy 50 cég akar részesülni az AI dologból. Lesz majd kavarodás,káosz,stb...
Új hozzászólás Aktív témák
- Surface Laptop 7 Business edition - Intel Core ultra 5 236V energiahatékonyabb az intelnél! -olvass
- Telefon felvásárlás!! Apple Watch SE/Apple Watch SE 2 (2022)
- LG 27GP850P-B - 27" NANO IPS - 2560x1440 - 180Hz 1ms - NVIDIA G-Sync - AMD FreeSync - HDR 400
- Bomba ár! Fujitsu LifeBook U939x- i5-8GEN I 8GB I 256SSD I 13,3" FHD Touch I HDMI I Cam I W11 I Gari
- Bomba ár! Dell Latitude E5570 Touch - i5-6300U I 8GB I 256SSD I 15,6" FHD I HDMI I CAM I W10 I Gari