Programozás topic - Fototrend Hozzászólások

LOGOUT témák

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD témák

Fototrend

Frissítve: 2023-12-13 06:18 Téma összefoglaló

Fototrend

Új hozzászólás Aktív témák

Sk8erPeter nagyúr

#8251
#8249 bambano
2014-10-15 21:56:51

Új Válasz
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

Sk8erPeter

nagyúr

#8249 bambano

#8249 bambano
Simán
Ez volt az eredeti link: /direkt nem linkként/
http://ingatlan.com/kutvolgy/elado+lakas/tegla-epitesu-lakas/budapest+12+kerulet+dios+arok/21040926?sid=6
ebből, és ha megnézed az oldalt, amire mutat, látszik, hogy a 21040926 a hirdetés azonosítója. így egy próbálkozást megért nekem tegnap este, hogy kigyaluljam belőle a nem fontosnak tűnő adatokat és maradt ez:
http://ingatlan.com/21040926
ezt le lehet tölteni a weblapról, és abban benne van minden. ezek után belenézel a html-be, és megtalálod, hogy így írták le a dolgokat:
<tr><th>Ingatlan állapota</th></td><td>újszerű</td><th>Emelet</th></td><td>2</td></tr>
<tr><th>Épület szintjei</th></td><td>3</td><th>Fűtés</th></td><td>házközponti egyedi méréssel</td></tr>
tehát azt a két sort kell kiszedni, amiben az Emelet és a szintjei string szerepel.
ez linuxon kb. ennyi:
wget -O - http://ingatlan.com/21040926 | egrep 'Emelet|szintjei'
a többit már csak egy kis seddel vagy awk-kal ki lehet szedni. ha a hozzá tartozó számok egyenlőek, akkor az url-ben levő azonosítót kell letárolni.
értelemszerűen az azonosítót, mint ciklusváltozót kezelve le lehet nyalni a komplett adatbázist. (most nem tekintem, hogy ezért lelőnek)
ha ezt a kérdéskört bedobod a nagy shell script topicban, negyed óra alatt összedobják neked a komplett megoldást
megjegyzem, ezzel a paranccsal csak azt az egy html oldalt tölti le, ami karakteresen tartalmazza az adatot. a sallangokat, képet, css-t, egyebet nem. ennél kevesebből szerintem nem lehet megoldani, feltéve, hogy nincs közvetlen adatbázis hozzáférése.
szerk: arra azért készülj fel lélekben, hogy nem lesz minden oldalon minden adat pontosan kitöltve, tehát lehet, hogy több változat lesz a string keresésre.

"a többit már csak egy kis seddel vagy awk-kal ki lehet szedni. ha a hozzá tartozó számok egyenlőek, akkor az url-ben levő azonosítót kell letárolni.
értelemszerűen az azonosítót, mint ciklusváltozót kezelve le lehet nyalni a komplett adatbázist. (most nem tekintem, hogy ezért lelőnek)
ha ezt a kérdéskört bedobod a nagy shell script topicban, negyed óra alatt összedobják neked a komplett megoldást "
De az ugye lejött ebből neked is, aki az eredeti kijelentést tetted, hogy itt már nem csak wgettel oldod meg az érdemi problémát, hanem scripteléssel? Idézlek: "triviális megoldás: wget. esetleg curl. teljesen felesleges ennél bonyolultabb"
Ha már scriptelsz, akkor már mást is csinálsz, picit bonyolódik a helyzet, ez teljesen nyilvánvaló volt, hogy scriptelés nélkül nem fogod megoldani, direkt ezért kérdeztem vissza... De ha már itt tartunk, hogy scriptelni kell, stringet feldolgozni, nem igazán értem, miért is ne lehetne más megközelítéssel, hasonlóan egyszerű és gyors módszerrel bíbelődni, mint az ajánlott library. Mindegy, úgyse nekem kell, csak mint korábban említettem, azért igencsak szeretsz vitatkozni, néha feleslegesen is, mint a jelen esetben. Természetesen a scriptelős megoldás is teljesen jó, sőt, a scriptelésnek pont az az előnye, hogy gyorsan neki lehet esni a probléma érdemi megoldásának; például az általad leírt módszer jó lehet, de nyilván egy C# library sem megvetendő.