Új hozzászólás Aktív témák
-
pengwin
addikt
Ok, elvesztettem a mondanivalód fonalát.
A "nem haszonszerzésre használják" azt jelenti, hogy a végtermék ingyen elérhető valamilyen nyílt licenc alatt. Ha fizetős a termék, akkor haszonszerzésre van felhasználva.
Ha fizetős termékbe rakják be valakinek az ellopott hangját, azért fizetniük kell. Teljesen lényegtelen, hogy a termék profitábilis-e nekik. Ha meg nem hozna a terméknek valamilyen előnyt, akkor nem vesződtek volna a hang lopásával.
-
Reggie0
félisten
Nem hinnem, hogy jogilag lenyegtelen lenne, mert baromira nem ugyanaz az eset, ha haszonszerzesre hasznaljak. Masfelol a hangja valakinek ketseges, hogy szellemi tulajon lenne.
A birosag sem ugyan ugy iteli meg, ha veletlenul sertes szabadalmat, vagy szandekosan, a karterites merteke is teljesen mas ilyenkor.
-
pengwin
addikt
Ez jogilag teljesen lényegtelen. Ennyi erővel nyugodtan lehetne szellemi tulajdont lopni, csak ügyesen kell könyvelni, hogy ne legyen belőle haszon.
Ha önállóan el akarják adni a végterméket akkor jogtalan a felhasználás, mert még félig-meddig sem tartozhat a jog által engedett reakció / homázs / kritika / karikatúra kategóriákba.
-
-
Reggie0
félisten
South Park S18E10 reszben ezt dolgozza fel, de szorakoztato modon
-
pengwin
addikt
A probléma nem is a tréning, hanem az, hogy a tréning eredményét minden egyes alkalommal pénzzé akarja tenni a másik cég.
Attól, hogy te valamit megnézhetsz YT-on, még nem töltheted le és posztolhatod egy saját videómegosztó oldalra ahol te keresel pénzt utána.Ez az egész pont ugyanolyan, mintha egy cég saját termékbe leforkolna egy nyílt projektet, majd a forkot zártan kezelné és terjesztené (láttam ere példát, egy elég nagy cég termékétől). És nem, nem MIT vagy hasonló licenc alatt volt a nyílt kód.
-
ddekany
veterán
"1-2 fokkal érzékenyebb a fül, nem"
Mozgó kép és hang közt nem tudom mi alapján lehetne érzékenységet mérni. De én úgy tippelném, a mozgó kép előállítás nehezebb, mert sokkal többet kell hozzá érteni a világból. Nem mellékesen több adatot kell előállítani a videónál (avagy, a videó többet foglal mint a hang), szóval nagyobb sávszélesség. -
Tasunkó
őstag
A [Congress] jut eszembe az is ilyen beszkennelés mögötti hátteret dolgoz fel, de nem túl szórakoztató módon.
-
totron
addikt
Mutathatnál párat. Gondolom ezután is meglesz az a szegmens minek tagjai szentül hirdetik, hogy az mp3-nál nem kell több, meg hogy maradéktalanul visszaalakítható wavba a nyomorított anyag. Na ők láthatják tökéletesnek a generált mozgóképet, hallhatják rendben lévőnek a természettel durván szembe menő autotune-okat, valójában igen messze vannak az élvezhetőtől.
(#21) Dißnäëß, nem vagyok biztos benne, hogy a filmfelújítás jó párhuzam erre, de lehet, hogy deaz. 1-2 fokkal érzékenyebb a fül, nem? Zenei album terén eddig egy jól kihallható műviségben megállt egy középszerű rekonstruálás eredménye, jelenleg mit tud egy AI hozzáadni pozitív oldalon? Mit várunk egyáltalán és azokat hogy lehet kivitelezni, milyen áron? Kell-e a nagyobb dinamika, ha vesztünk a tisztaságból? A zajmentesség sincs ingyen, stb.
-
Tasunkó
őstag
Akartam mondani, abból
majd az lesz a watergate hogy Al Capónén is tréningeztették, repülős Gizin, amit tagadni fognak, áhh. -
Tasunkó
őstag
A politikus is jellemzően egyféle hangon dumál, nem szoktak Al Pacino-i hanglejtéstartománnyal operálni, és a legtöbb híres politikust sosem láttam élőben, szóval egy tipikus áldozat vagyok aki átverésért kiált, így bármikor találhatnának ki, ahogy sok más embernek is egy AI politikust, AI parlamentet is akár, jelentkezem megvezetésre.
-
Dr. Akula
félisten
Stílusos lenne, ha AI ügyvédek vinnék a pert.
-
ddekany
veterán
válasz
Héraklész #30 üzenetére
A színeket csak tippelni lehet, de amit tippel, az a te érzékelésed szemszögedből hozzáadott információ. Mert az érzékelésed kap színinformációt is immár. Csak tudati szinten tudod (ha tudod... az emberek többsége valószínűleg nem), hogy 200 éve ott valószínűleg más szín volt. Persze, a mostani modellel vannak furcsa jelenségek néha, szóval ez a későbbiekre vonatkozik.
-
Tasunkó
őstag
Itt már viszont a festményeken, szobrokon látszott, hogy masszívan a nyugati aktuális kommersz szépségideálhoz alakították, és többnyire inkább érdekes volt, mint hasznos. Viszont az eddigi történelemdeformációs technikákat bővíti, azt Vlad Tepesen látni, hogy mire is lehet majd használni, sorozatgyilkosból bohémot kreálni. Hasznos lehet, történelemkönyv illusztrációnak.
-
haxiboy
veterán
Ahhoz képest azok a modellek amik nagyon jól fel vannak tanítva, még a levegővételt és a hanglejtést, beszédstílust is nagyon durván tudják utánozni.
Darknet Diariesben volt egy rész ami pont erről szólt, és egy jó ~2-3 perces részben nem Jack hanem egy AI tool beszélt helyette, abszolút nem tűnt fel...és az csak ~10 percnyi anyagon lett feltanítva. -
Dißnäëß
nagyúr
Dettó, és igen, Chaplin, úristen ezek mit csinálnak, stb, most meg .. pfff.
Hihetetlen ez a mértékű, maradék-infóból + egyéb betanultakból (feltételezem) bele-generált és ezáltal pótolt infó, ami egész jól illeszkedik ezen archív felvételek kockái közé, komplett generált képkockákat és kipótolt mozgásokat már nem is említve.Ebben a mai AI őrületben ez pár év múlva kb. újragenerálható és még jobb minőséget kaphatunk, néha a szín itt-ott még elcsúszik-lecsúszik emberekről, mozgó tárgyakról, de később, ahogy ez tökéletesedik, érdemes lesz teljesen újból ismét megcsinálni az egész restaurációt a majdani jóval precízebb AI algoritmussal.
Hihetetlen most is, csak megyek video-ról videor-a..
Ez sem gyenge !!!
Csak esik le az állam..
-
Tasunkó
őstag
Művészetileg kétéséges, de lenyűgöző mennyi információval bővült a régi filmfelvétel. A fekete-fehér Chaplin filmek korabeli embereket, mindigis őrülteknek gondoltam, vagy erősen idegbetegeknek. Amit leművelnek az a rángatózó mozgás, meg az a kapkodás állandó sietség, türelmetlenség. Elképesztő hogy ezen mennyire normálisak.
-
Héraklész
aktív tag
Én ezt nem tudom elképzelni. Bár technikában van fejlődés, művészi szinten nem nyilvánul meg. Számomra a régi albumok a hallgathatóak, az újabbak, a remasztereltek mindig zajszűrtek de műviek.
A hangmérnöki szakma jelenleg is kihasználja az automatizáció/szimuláció lehetőségét, ami sok esetben mégsem jobb, mint a "butább" módszer. -
nubreed
veterán
Most miért. Már most is vannak tökéletes deep fake videok, elég csak az Honest Con -ra gondolni:
[link]
Igen, az lesz amit írsz. A lemezkiadó cégek már készülnek és dörzsölik a tenyerüket. Már olvastam az elmúlt hetekben olyan cikket, hogy egy nem rég elhunyt zenész adott ki új lemezt az AI -nak köszönhetően... -
Dißnäëß
nagyúr
Beszélgetünk itt hangról, én arra vagyok már kíváncsi, hogy amikor majd megjelennek 2026-ban (csak mondtam valamit) az Elvis Remaster-ek Tidal-ön, Spotin és mindenhol, ami úgy fog szólni, olyan minőségben, mintha tegnap vettük volna fel valami csúcs stúdióban, gyönyörű minden hang, minden "sz", "c" és egyáltalán, az egész beszéde-éneke, a hangszerek, nulla zajszint, bla bla....
Szóval majd amikor a képi restauráció mintájára régi idők anno technológia-limites zenéit javítjuk fel AI-val, akkor az úgy milyen lesz.
És lesz-e azt követően olyan, aki "autentikus" (javítatlan) Elvis-t hallgat, meg lesz-e olyan, aki csak a tökéleteset ?
És ez ma.
Ugorjunk 2030-ra..
(Vietnam 1900 kemény)..
-
Tasunkó
őstag
Ha sikerül jól lemásolniuk, ugyanaz a probléma lesz mint a filmeknél. Hogy a filmgyártás a világon, 99,99%-ban nézhetetlen szart termel, és csak egy mikrónyi része ami jó, és azon belül van megint egy kis rész ami mégjobb és emlékezetes a színészek hangja. Így csak a 99.99%-on belül számítok afféle bandaháborúkra a gettóban, hogy az AI lenyom valakit, aztán megint az emberek, emberhangok visszavágnak, stb.
Az viszont hogy beszélgetős AI lesz, fenomenális lenne, meló közben dumálgatni, információkat szerezni. -
2544AACD
csendes tag
" a cég illegálisan lopta.. "
Legális lopásról még nem hallottam...
-
ddekany
veterán
Nem tudom mik a fundamentális, és mik az átmeneti akadályok ezen a téren. De meglepne, ha részletesség nem emelkedne elég gyorsan tovább a jövőben. Az ember látása meg korlátosan részletes, szóval nem is kell végtelenségig skálázódnia. És amúgy nekem az volt a benyomásom az AI-s dolgok kapcsán, hogy megtalálja kiskaput, az elégséges megközelítést (kb. mint az ember), szóval nem lehet azzal számolni, hogy elvileg mennyi számítás egy fizikai jelenséget leszimulálni. A kérdés, hogy mennyi be kerül a "csalás", ami egy embernek már nem (nagyon) észrevehető.
De a beszéd hang másodpercenként sokkal kevesebb információ, és sokkal vékonyabb szelettét tükrözi a valóságnak. Ezért mondtam, hogy az alighanem alacsony léc, főleg ha a tartalmat is mögé teszed szöveg és némi instrukciók formájában.
-
CRTs
aktív tag
Elég valószínű hogy fel lehet állítani meg "megapixellel" megy.
Én sokat játszok stable diffusion-el, azonbelül is LCM-el. Azzal is ez megy csak kicsiben. 512x512 képen emberi arcot már nem kell tőle várni ha egészalakos a kép (főleg hogy az LCM nem konvergál de legalább gyors). Ahogy SORA-nál sem kell várni kilóméteren túl nagyon dolgokat. Ennek az a megoldása ha fenntebb van véve a felbontás. Aminek az lenne az ára hogy ne felejtse el hogy mit rajzolt és hova azidáig. Kirakni egy dolog, de formátumozni, cache-lni már érdekesebb. Ez eddig messze nem piacképes. Igazából nem is 2D videó lenne érdekes belőle hanem "fénytér" lightfield, úgy 3D-vel is kompatibilisebb lenne. És akkor eljutunk odáig hogy komplett kamerát akarunk szimulálni, csak egy vmirevaló lightfield kamera az gigapixel(!).
-
ddekany
veterán
Az nem úgy 3D engine, mint egy mostani, szóval elég valószínűtlen, hogy távolra látás sokba kerülne, vagy hogy bármi más analógiát felállíthatnál. Hogy mennyit eszik... ezért is gondolom, hogy hang hamarabb lesz. (De valószínűleg meg se tudják mondani, hogy elszeparálva csak a megjelenítés mennyi energia. Mert nincs elszeparálva.)
-
Yodafon
őstag
AI-ceg? Mar cegeket is alapitanak AI-ok ?
-
CRTs
aktív tag
"mélyebb megértésének hiányból adódó inkonzisztenciák."
hát igen, ezért van már openphysics-ük is ha jól láttam XD
szerintem valahogy mindig leütődik a léc. Szvsz a Sora is leüti azzal hogy a távolban látszódnak a patch-ek. Közelre egész jó, de nem mondják meg hogy hány kilowatt szerintem 10+. És ha kitolná a látótávot rendesen akkor könnyen tizszer annyi, ami meg rosszabb hogy nincs re-use ELVILEG. -
ddekany
veterán
Játékhoz hanggeneráláshoz közölni kell vele kontextust, hogy adódjon hogyan kell hangsúlyozni, ahhoz meg néha mélyebben is érteni kell a világot. De egy reklámfilmhez ezeket elég jól megadhatod, mert nem egy dinamikus szituáció.
3D... te a hagyományos 3D-ről beszélsz, hogy az meddig jutott. Vesd össze pl. a Sora-val. Totál más irányból támadja a problémát. A fő gondja nem is renderelésnek megfelelő rész utánzása, hanem a világ mélyebb megértésének hiányból adódó inkonzisztenciák.
-
nubreed
veterán
És még mennyi ilyen lesz. AI cégek tömege gondolja azt, hogy a neten elérhető tartalmakat szabadon használhatják a modelljük tréningezésére, anélkül, hogy engedélyt kérnének rá.
-
CRTs
aktív tag
uhhhhh xD
ezek megcsinálták a "valley girl" sztereotipiát.
https://en.wikipedia.org/wiki/Valley_girl
-
ddekany
veterán
Ott a GPT-4o, amiben az LLM rész lényegében hang-be hang-ki ellenben azzal, hogy eddig szöveg-be szöveg-ki volt (amit körbevehettél hangból-szöveg, és szövegből-hang átalakítóval). Így most az érzelmi töltés, a hangsúlyok, stb. egybe van fonódva a szöveggel, az folyik át a neurális hálón, nem a csupasz szöveg. Persze, korai darab, hallatszik hogy AI, hibázik, de ahogy a hanghordozást alkalmazza a kimeneten... nem vennék tartós tejet, ha valami reklámbemondó vagy hasonló narrátor lennék.
(GPT-4o interjú előkészítéses demó: [link])
-
ddekany
veterán
Szép álom, vagy rémálom... de ez egy eléggé alacsony lécnek tűnik. Adott a szöveg. A szemantika azon részét, amit hanghordozással adsz át is megadhatod, ha gépelés helyett elve bemondod a szöveget. A sok izmot meg fizikát meg nem kell leszimulálni ahhoz, hogy egy embernek már bőven valósnak tűnjön.
-
CRTs
aktív tag
Nem de majd lecsekkolom. Azért narrációt ne keverjük össze azzal hogy filmben játékban hányféle szituáció van, hozok is vicces példát (állítólag több féle lett volna de annyira LOL hogy csak ezt hagyták benne
)
https://www.youtube.com/watch?v=kqBXQVxS-qk -
Chiller
őstag
Ezt a videót láttad már?
https://www.youtube.com/watch?v=dB6uWwL565s -
CRTs
aktív tag
" mert már elég jó "
szép álom. De valószínű hangban is létezik az uncanny valley effektus ahogy 3D-ben ezt hajlamosak elfelejteni metahuman és stb. hype miatt. És elvárás lesz hogy egy VA (voice actor/actress) többet adjon bele mint szokott azért hogy fel se merülhessen hogy generált. Abba meg bele se kezdek hogy emberi hangkeltés az 100(?) izom munkája.
-
ddekany
veterán
Lehet, hogy rossz indulatúan járt el a cég (nem tudom). De ez ilyen nem ismert embereknek egy átmeneti probléma, mert pár év, és eleve fel se kérik őket ilyesmire, mert már elég jó a meglévő mesterséges megoldás, ahol beállíthatod, hogy milyen jellegű beszédet akarsz, meg milyen hatást akarsz elérni, és milyen célcsoportnál.
A régebbről már eleve ismert emberek hangja trükkösebb kérdés. Pl. mi van, ha nem is tréningezték rá az AI-t, csak sikerült nagyon hasonlóra beállítani egy meglévő megoldást...
Új hozzászólás Aktív témák
- Gaming notebook topik
- TCL LCD és LED TV-k
- SSD kibeszélő
- Azonnali fáradt gőzös kérdések órája
- Erős hardverrel érkezik a Honor 10 000 mAh-s mobilja
- Audi, Cupra, Seat, Skoda, Volkswagen topik
- sziku69: Fűzzük össze a szavakat :)
- Mikrotik routerek
- Filmvilág
- AMD Ryzen 9 / 7 / 5 9***(X) "Zen 5" (AM5)
- További aktív témák...
- Thermaltake Toughpower SFX Platinum 1000W
- Gigabyte B650M Aorus Elite AX ICE + 3 év garancia
- Sony DSC-HX300 digitális fényképező + 3 extra akksi + 8GB memóriakártya + Hama Star 700 állvány
- BESZÁMÍTÁS! LENOVO LOQ 15APH8 15 notebook - R7 7840HS 16GB DDR5 1TB SSD RTX 4060 6GB WIN11
- BESZÁMÍTÁS! ASUS TUF A15 FA507NV 15 notebook - R7 7735HS 32GB DDR5 512GB SSD 1TB SSD RTX 4060 6GB W
- DELL Precision 5560 i7-11850H 16GB 512GB T1200 FHD+ 1 év garancia
- LG 25GR75FG - E-Sport Monitor - FHD 360Hz 1ms - NVIDIA Reflex + G-sync - AMD FreeSync - HDR 400
- Új monitor állvány - csak össze lett szerelve
- Frederick Forsythe: Isten ökle (nem olvasott)
- Panasonic CF-XZ6 AIO all-in-one laptop tablet 2k touch i5-7300u speciális ütésálló rugged
Állásajánlatok
Cég: FOTC
Város: Budapest