-
Fototrend

Új hozzászólás Aktív témák
-
dqdb
nagyúr
válasz
gordonfreemN
#17612
üzenetére
Rövid válasz: éppen az általad is bedobott a PDF to Excel szoftvereket akartam ajánlani, mint egyszerű megoldás, hátha akad belőlük olyan, ami tökéletesen kezeli ezek a táblázatokat.
Hosszú válasz: nem megoldhatatlan, de nem is egyszerű dolog, mert a PDF egy konzisztens megjelenítésre optimalizált formátum, és nem az adatok hordozására/módosítására.
Legextrémebb esetben a szövegek nem is szövegként vannak eltárolva, hanem maguk a betűk vektorosan görbékként kerülnek be a fájlba, és ilyenkor OCR kell a szöveg kinyeréséhez. Ez szerencsére ritka, általában szépen formázott kiadványok esetében fordul csak elő.
Leggyakrabban a szövegek szövegként kerülnek bele a dokumentumba (adatokból sablon segítségével generált dokumentumoknál más megoldást még nem láttam), de a helyzet ennél bonyolultabb, mert nem bekezdésenként vagy szavanként egyben, hanem betűnként külön-külön saját pozícióval. Azaz például az alma szó a, l, m és a betűként* szerepelnek, ahol mindegyik betűhöz tartozik egy koordináta. A PDF megjelenítők vagy az általad igényelt text extractor megoldások pedig valamilyen heurisztikát használva kitalálják, hogy ezek a betűk elég közel vannak egymáshoz a használt betűtípus metrikái alapján, függőlegesen sem nagyon lógnak ki, így valószínűleg egy szót alkotnak. Aztán a szavakat hasonló heurisztika mentén bekezdésekké lehet összefűzni,
A PDF libraryk közül szinte mindegyik kínál valamilyen fajta text extractor megoldást, jobban az iTextet ismerem, ott van egy általános implementáció, amelynek átadhatod paraméterként a helyzetnek megfelelő heurisztikát vagy használhatod a gyárilag beépítettek egyikét. A képen látható dokumentum formátuma eléggé szabályosnak tűnik ahhoz, hogy saját heurisztika nélkül, pusztán az alapértelmezett segítségével kinyert szöveget elég legyen feldolgozni, vagy ha ez mégsem jön össze, akkor ki tudod használni a táblázatjelleget, és pusztán a szövegek pozíciója alapján be tudod lőni, melyik cellában voltak.
* Láttam már olyan generált dokumentumot, ahol tényleges szavak voltak, de ez ritka és a szabvány oldaláról ellenjavallott.
Új hozzászólás Aktív témák
● olvasd el a téma összefoglalót!
- Suzuki topik
- Milyen videókártyát?
- Úgy tér vissza, hogy igazából el se ment a világ legdrágább csúcs-VGA-ja
- A popóalávaló: DXRacer Drifting gamer szék tesztje
- Projektor topic
- Counter-Strike: Global Offensive (CS:GO) / Counter-Strike 2 (CS2)
- Épített vízhűtés (nem kompakt) topic
- Luck Dragon: Asszociációs játék. :)
- TCL LCD és LED TV-k
- Melyik tápegységet vegyem?
- További aktív témák...
- ASUS ROG PG39WCDM Ívelt Gamer Oled Monitor!39"/2k ultrawide/240hz/0,03ms/Gsync-Freesync/Type-C/!
- Akciós! Makulátlan MacBook Pro 16" i9 16GB 1TB 5500M asztro szürke részletek a leírásban.
- UF Lenovo Yoga 9i x360 Érintős Hajtogatós Laptop Tab 14" -50% i7-1360P 16/1TB Iris Xe 2,8K OLED 90Hz
- iPhone 13 Pro Max 256GB Graphite megkímélt állapotban eladó!
- WACOM INTUOS Pen & Touch S - Digitalizáló rajztábla
- Keresünk dokkolókat
- Bomba ár! Lenovo X1 Carbon G7: i5-8365U I 8GB I 256GB SSD I 14" FHD I HDMI I Cam I W11 I Gari!
- Azonnali készpénzes INTEL CPU NVIDIA VGA számítógép felvásárlás személyesen / postával korrekt áron
- BESZÁMÍTÁS! MSI B450 R5 5600X 32GB DDR4 512GB SSD RX 6700XT 12GB Zalman Z1 Plus Cooler Master 750W
- Gamer PC-Számítógép! Csere-Beszámítás! R5 5500 / RX 6700XT 12GB / 32GB RGB DDR4 / 1TB SSD
Állásajánlatok
Cég: PCMENTOR SZERVIZ KFT.
Város: Budapest
Cég: ATW Internet Kft.
Város: Budapest


