-
Fototrend
Új hozzászólás Aktív témák
-
sztanozs
veterán
válasz
gordonfreemN #17668 üzenetére
Próbálj meg ráereszteni egy OCR-t, hátha...
Vagy esetleg ilyesmi: [link]
-
dqdb
nagyúr
válasz
gordonfreemN #17665 üzenetére
Ahogyan a múltkor is írtam, ehhez logika kell, ami a puszta szöveg mellett a koordinátákból is dolgozik, mert egy PDF-ben tipikusan csak összevissza helyeken szereplő betűk vannak, amit heurisztika képes szavakká összefűzni, de ahhoz még több heurisztika kell, hogy ebből táblázatos adat legyen, amivel dolgozni tudsz.
A PDF-ek adattartalma nincsen véletlenül csatolmányként bedobva valami könnyen feldolgozható formátumban a dokumentumba? Vagy ha nincsen, akkor a PDF-et gyártó oldal nem tudja nektek más formátumban is átadni az adatokat?
-
sztanozs
veterán
válasz
gordonfreemN #17665 üzenetére
Egy szkenner/képfelismerő vsz többet tudna ebből kihozni, mint egy PDF parser - persze ez a konkrét PDF struktúrától is függ...
-
sztanozs
veterán
válasz
gordonfreemN #17661 üzenetére
Az a gond, hogy ami pdf-ben táblázatnak látszik, az legtöbbször valójában csak formázás, azaz csak pozicionált szöveg (vagy szövegdoboz).
-
martonx
veterán
válasz
gordonfreemN #17661 üzenetére
Én valami ilyet próbálnék meg használni: GitHub - UglyToad/PdfPig: Read and extract text and other content from PDFs in C# (port of PDFBox)
Nyelvet nem írtál, de gondolom kiindulásnak egy ilyen PDF feldolgozó is jó ötlet lehet, biztos, hogy bármilyen nyelvhez találsz hasonlót. Más kérdés, hogy szvsz még ezzel is elég izgi lehet egy pdf-ben lévő táblázatból kimazsolázni az adatot.
-
JoinR
őstag
válasz
gordonfreemN #17661 üzenetére
Ami "könnyen" megoldható, az még mindig az Exceles konvertálás szerintem.
Vagy machine learning, nem véletlenül van egy pár pdf-értelmező adaptáció, nem egyszerű feladat automatizálni. -
gordonfreemN
addikt
válasz
gordonfreemN #17660 üzenetére
Bocsi, az lemaradt,, hogy a "Material Order Identification" oszlopra lenne szükségem (még reggel van).
PDF-eket kell összehasonlítani, és ilyen formátumból ez nem egyszerű (beyond compare se jó, mert tudnom kellene, melyik cikkszám van meg másik fájlban is, és ami nincs azokat ki kellene gyűjtenem -
sztanozs
veterán
válasz
gordonfreemN #17627 üzenetére
használj if+countif et:
=IF(COUNTIF(C:C,A2),B2,"-")
-
axioma
veterán
válasz
gordonfreemN #17621 üzenetére
fkeres fuggvenyt keresed ha magyar az excel ( beirod
=fkeres(
es fel tudod hozni a help ablakot, segit az eligazodasban)
Ha A-ban es B-ben benne van az azonosito es ar osszerendeles, akkor egy barhol levo azonosito melle ki tudod irni az fkeres-sel az a'rat
Ha az A-ban vagy van a'r vagy nincs, es nem szamit a sorrend, akkor elobb rendezd ugy sorba hogy a B-ben az uresek alul legyenek, akkor sajat maga felett mindig megtalalja (es a C-be irdd be akar ki volt toltve a B akar nem, a B-t meg egyszeruen elrejted), vagy ugyanez pepitaban, A lemasol C-be (ertek szerint), A+B rendez ugy hogy az uresek alul, A es B elrejt, D-be fkeres az AB-n. -
sztanozs
veterán
válasz
gordonfreemN #17621 üzenetére
Mármint mit szeretnél? h a pont mellette levő cellát nézné meg?
=HA(B8=E8;C8;"-") -
dqdb
nagyúr
válasz
gordonfreemN #17612 üzenetére
Rövid válasz: éppen az általad is bedobott a PDF to Excel szoftvereket akartam ajánlani, mint egyszerű megoldás, hátha akad belőlük olyan, ami tökéletesen kezeli ezek a táblázatokat.
Hosszú válasz: nem megoldhatatlan, de nem is egyszerű dolog, mert a PDF egy konzisztens megjelenítésre optimalizált formátum, és nem az adatok hordozására/módosítására.
Legextrémebb esetben a szövegek nem is szövegként vannak eltárolva, hanem maguk a betűk vektorosan görbékként kerülnek be a fájlba, és ilyenkor OCR kell a szöveg kinyeréséhez. Ez szerencsére ritka, általában szépen formázott kiadványok esetében fordul csak elő.
Leggyakrabban a szövegek szövegként kerülnek bele a dokumentumba (adatokból sablon segítségével generált dokumentumoknál más megoldást még nem láttam), de a helyzet ennél bonyolultabb, mert nem bekezdésenként vagy szavanként egyben, hanem betűnként külön-külön saját pozícióval. Azaz például az alma szó a, l, m és a betűként* szerepelnek, ahol mindegyik betűhöz tartozik egy koordináta. A PDF megjelenítők vagy az általad igényelt text extractor megoldások pedig valamilyen heurisztikát használva kitalálják, hogy ezek a betűk elég közel vannak egymáshoz a használt betűtípus metrikái alapján, függőlegesen sem nagyon lógnak ki, így valószínűleg egy szót alkotnak. Aztán a szavakat hasonló heurisztika mentén bekezdésekké lehet összefűzni,
A PDF libraryk közül szinte mindegyik kínál valamilyen fajta text extractor megoldást, jobban az iTextet ismerem, ott van egy általános implementáció, amelynek átadhatod paraméterként a helyzetnek megfelelő heurisztikát vagy használhatod a gyárilag beépítettek egyikét. A képen látható dokumentum formátuma eléggé szabályosnak tűnik ahhoz, hogy saját heurisztika nélkül, pusztán az alapértelmezett segítségével kinyert szöveget elég legyen feldolgozni, vagy ha ez mégsem jön össze, akkor ki tudod használni a táblázatjelleget, és pusztán a szövegek pozíciója alapján be tudod lőni, melyik cellában voltak.
* Láttam már olyan generált dokumentumot, ahol tényleges szavak voltak, de ez ritka és a szabvány oldaláról ellenjavallott.
-
sztanozs
veterán
válasz
gordonfreemN #17034 üzenetére
Igen, azt akartam írni hogy gyökér könyvtárból nem szeret semmi indulni.
-
-
gordonfreemN
addikt
válasz
gordonfreemN #17024 üzenetére
Jó, közben csak én bénáskodtam a regeditben nagyon figyelni, melyik mappáb an hozod létre az uj key-t
-
gordonfreemN
addikt
válasz
gordonfreemN #17023 üzenetére
így sikerült: [link]
Vagyis még mindig nem megy, de már a regeditben benne van -
gordonfreemN
addikt
válasz
gordonfreemN #17022 üzenetére
mindre ugyanazt a hibát hozza, amit lent mutzattam.
-
sztanozs
veterán
válasz
gordonfreemN #17019 üzenetére
Ellenőrizd le az Execution Policy-t:
Get-ExecutionPolicy -List
és vagy állítsd át (ha tudod):Set-ExecutionPolicy -ExecutionPolicy Undefined -Scope CurrentUser
vagy írd alá a szkriptet (ha nem tudod átállítani, de az aláírt szkriptek engedélyezettek):Set-AuthenticodeSignature -FilePath C:\CSVcopyBOND1.ps1 -Certificate $cert -IncludeChain All
-
sztanozs
veterán
válasz
gordonfreemN #17019 üzenetére
Írd alá a szkriptet és akkor talán futtatható lesz. Nálunk is kb ez van...
-
gordonfreemN
addikt
válasz
gordonfreemN #17018 üzenetére
-
gordonfreemN
addikt
válasz
gordonfreemN #17017 üzenetére
Kozben meg is lett, nem creationtime kellett mert mivel másoltam az módosult. Helyette a LastWriteTime parancs kellett
Új hozzászólás Aktív témák
● olvasd el a téma összefoglalót!
- Konteó topic
- Milyen TV-t vegyek?
- Vicces képek
- Motorola Edge 50 Neo - az egyensúly gyengesége
- Kerékpárosok, bringások ide!
- Nem lett arányos a fogyókúra
- Építő/felújító topik
- Samsung Galaxy A54 - türelemjáték
- EA Sports WRC '23
- Samsung Galaxy Watch (Tizen és Wear OS) ingyenes számlapok, kupon kódok
- További aktív témák...
- Amazon Kindle (10. gen) eBook olvasó
- Latitude 5550 15.6" FHD IPS Ultra 5 135U 16GB 512GB NVMe magyar vbill ujjolv IR kam gar
- Gamer PC , i7 10700 , RX 6700 XT 12GB , 32GB 3200MHz , 512GB NVME , 1TB HDD
- Eladó Konfig Ryzen 7 9700X 32GB DDR5 1TB SSD RX6900XT 16GB!
- Eladó Gamer PC i7 14700, RTX 5070, 32 GB 6000mhz RAM, Vizhűtés, 850W 80+ Táp, 2 év Garanciával
- BESZÁMÍTÁS! Asus B350 R5 1600 16GB DDR4 512GB SSD GTX 1050Ti 4GB Cooler Master CM 690 III TT 500W
- PROCASTER 40UNB700 40" 101cm televízió + Számla + Garancia
- 124 - Lenovo Yoga Pro 7 (14IMH9) - Intel Core Ultra 9 185H, RTX 4060 (48 hónap garancia!) (ELKELT)
- LG 25GR75FG - E-Sport Monitor - FHD 360Hz 1ms - NVIDIA Reflex + G-sync - AMD FreeSync - HDR 400
- Lenovo ThinkPad X13 G2 multitouch
Állásajánlatok
Cég: PC Trade Systems Kft.
Város: Szeged
Cég: CAMERA-PRO Hungary Kft
Város: Budapest