Új hozzászólás Aktív témák

  • szbalogh

    addikt

    Sziasztok!

    4 db node-ból álló slurm klaszteren akartam használni a Dirac programot de úgy van megalkotva a progi, hogy egyszerűbb nem klaszteren futtatni ezért az egyik node-ot kivettem a slurm-ből.
    Sajnos akárhogy próbálkozom először ez a hiba szerepelt az output fájlokban:

    ==========================================================
    = BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
    = RANK 0 pid 613064 RUNNING AT node4
    = KILLED BY SIGNAL: 11 (Segmentation fault)
    ==========================================================

    Ez után mókoltam sokmindent chatgpt tanácsai alapján de már nem tudom mit és most ez a hiba jön:

    ==========================================================
    = BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
    = RANK 3 pid 1657734 RUNNING AT node4
    = KILLED BY SIGNAL: 9 (Killed)
    ==========================================================

    A terminal-ban megjelenő üzenetek először okénak tűnnek de 1 másodperc után ez a vége

    ... egyéb szöveg ami jónak tűnik, majd:
    Could not construct hdf5 checkpoint file
    going to delete scratch directory ... done

    Mindkettő üzenetre memóriahibát ír a chatgpt.
    A gép fizikailag rendben van, a kalszterban hibátlanul működött.
    Arra gyanakszom, hogy a slurm-nek maradhatott valami foglalása a node memóriáján vagy valami ilyesmi és ezért nem engedi a node-on indított számolásokat.
    Kérlek segítsetek megoldani!
    Előre is hálásan köszönöm ha valaki szán időt erre a kihívásra!

Új hozzászólás Aktív témák