Keresés

Új hozzászólás Aktív témák

  • #05216000

    törölt tag

    válasz ngabor2 #12351 üzenetére

    Azt hiszem, félreértesz. Az a baj, hogy a szinonima hivatkozása az eredetire nem konzisztens.

    Bocs, csak példa, de nem tudom másképp:
    Ha lenne egy "Dendrobium Orchidea" nevű növényed, aminek van ezer szinonimája, de a szinonimák hivatkozásaiban hol "Dendrobium Orchidea" van, hol "Dend. Orcihd.", máskor meg "Dendrobium O." akkor automatikusan, a mi eszközeinkkel, ezt nem lehet összepárosítani.
    És eredetiként csak az egyik verzió szerepel.

    Normál körülmények közt csak annyi lenne a feladvány, hogy kiválogatod a neveket, amikre később szinonimák is vannak, majd a szinonima - eredeti párosokat kettéválasztani, field separator "-", kiírod fordított sorrendben, sorba rendezed és talán erre kell egy kis program, ami json-ra konvertálja az egészet.

    cat *.htm | gawk 'BEGIN { FS="-" } /<P>~/{ a=$1; b=$2; sub("<P>~[ ]*","",a); sub("^[ ]*See[ ]*","",b); print b,"\t",a}'| sort

    Ez kilistázza a szinonima - eredeti párokat úgy, hogy előre veszi az eredetit, mögé TAB karakterrel elválasztva a szinonimát. A /<P>~/ helyére kellene egy pontos minta a szinonimákat tartalmazó sorokhoz, amit nem sikerült megtalálnom, mert valami mindig kimaradt vagy épp olyan sorokat is felszedett, amik nem feleltek meg a követelményeknek.
    Ennek a sort előtti kimenetét kellene összefésülni az eredetiket tartalmazó listákkal és összefűzni az azonos növényhez tartozó sorokat, majd az egészből json-t készíteni.
    De nálam ez teli van szeméttel.

Új hozzászólás Aktív témák