Új hozzászólás Aktív témák

  • Sk8erPeter
    nagyúr

    Simán :)

    Ez volt az eredeti link: /direkt nem linkként/
    http://ingatlan.com/kutvolgy/elado+lakas/tegla-epitesu-lakas/budapest+12+kerulet+dios+arok/21040926?sid=6

    ebből, és ha megnézed az oldalt, amire mutat, látszik, hogy a 21040926 a hirdetés azonosítója. így egy próbálkozást megért nekem tegnap este, hogy kigyaluljam belőle a nem fontosnak tűnő adatokat és maradt ez:

    http://ingatlan.com/21040926

    ezt le lehet tölteni a weblapról, és abban benne van minden. ezek után belenézel a html-be, és megtalálod, hogy így írták le a dolgokat:
    <tr><th>Ingatlan állapota</th></td><td>újszerű</td><th>Emelet</th></td><td>2</td></tr>
    <tr><th>Épület szintjei</th></td><td>3</td><th>Fűtés</th></td><td>házközponti egyedi méréssel</td></tr>

    tehát azt a két sort kell kiszedni, amiben az Emelet és a szintjei string szerepel.

    ez linuxon kb. ennyi:
    wget -O - http://ingatlan.com/21040926 | egrep 'Emelet|szintjei'

    a többit már csak egy kis seddel vagy awk-kal ki lehet szedni. ha a hozzá tartozó számok egyenlőek, akkor az url-ben levő azonosítót kell letárolni.

    értelemszerűen az azonosítót, mint ciklusváltozót kezelve le lehet nyalni a komplett adatbázist. (most nem tekintem, hogy ezért lelőnek)

    ha ezt a kérdéskört bedobod a nagy shell script topicban, negyed óra alatt összedobják neked a komplett megoldást :)

    megjegyzem, ezzel a paranccsal csak azt az egy html oldalt tölti le, ami karakteresen tartalmazza az adatot. a sallangokat, képet, css-t, egyebet nem. ennél kevesebből szerintem nem lehet megoldani, feltéve, hogy nincs közvetlen adatbázis hozzáférése.

    szerk: arra azért készülj fel lélekben, hogy nem lesz minden oldalon minden adat pontosan kitöltve, tehát lehet, hogy több változat lesz a string keresésre.

    "a többit már csak egy kis seddel vagy awk-kal ki lehet szedni. ha a hozzá tartozó számok egyenlőek, akkor az url-ben levő azonosítót kell letárolni.
    értelemszerűen az azonosítót, mint ciklusváltozót kezelve le lehet nyalni a komplett adatbázist. (most nem tekintem, hogy ezért lelőnek)
    ha ezt a kérdéskört bedobod a nagy shell script topicban, negyed óra alatt összedobják neked a komplett megoldást :)"

    De az ugye lejött ebből neked is, aki az eredeti kijelentést tetted, hogy itt már nem csak wgettel oldod meg az érdemi problémát, hanem scripteléssel? :DDD Idézlek: "triviális megoldás: wget. esetleg curl. teljesen felesleges ennél bonyolultabb"
    Ha már scriptelsz, akkor már mást is csinálsz, picit bonyolódik a helyzet, ez teljesen nyilvánvaló volt, hogy scriptelés nélkül nem fogod megoldani, direkt ezért kérdeztem vissza... ;] De ha már itt tartunk, hogy scriptelni kell, stringet feldolgozni, nem igazán értem, miért is ne lehetne más megközelítéssel, hasonlóan egyszerű és gyors módszerrel bíbelődni, mint az ajánlott library. Mindegy, úgyse nekem kell, csak mint korábban említettem, azért igencsak szeretsz vitatkozni, néha feleslegesen is, mint a jelen esetben. :) Természetesen a scriptelős megoldás is teljesen jó, sőt, a scriptelésnek pont az az előnye, hogy gyorsan neki lehet esni a probléma érdemi megoldásának; például az általad leírt módszer jó lehet, de nyilván egy C# library sem megvetendő.

Új hozzászólás Aktív témák