Diversearbetare
· Göteborg
· 9 470 inlägg
Uppdatering av tråden. Efter mycket labbande med klassikern Tesseract hos en kund där jag byggde ett OCR-flöde från kopiator till användare, inså jag att någon annan redan hade gjort större delen av arbetet i programmet PDF OCR X
Grundfunktion: släpp en befintligt bildfil eller flersidig scannad PDF på programmet. Ut kommer en likadan PDF med ett dolt textskikt som därmed gör scanningen sökbar.
Mac eller Windows. Gratis, om man inte vill bygga automatiska bakgrundsflöden då den kostar $30. Det senare kan ju också lösas med egen kompilering av Tesseract med tillhörande Leptonica och ImageMagick.
Grundfunktion: släpp en befintligt bildfil eller flersidig scannad PDF på programmet. Ut kommer en likadan PDF med ett dolt textskikt som därmed gör scanningen sökbar.
Mac eller Windows. Gratis, om man inte vill bygga automatiska bakgrundsflöden då den kostar $30. Det senare kan ju också lösas med egen kompilering av Tesseract med tillhörande Leptonica och ImageMagick.
Vi skall väl bara förtydliga att Skatteverket (eller möjligen Bokföringsnämnden) kräver att verifikationer sparas i den form de emottogs.
Efakturor kan alltså sparas digitalt, pappersfakturor skall spara på papper. Etc.
Efakturor kan alltså sparas digitalt, pappersfakturor skall spara på papper. Etc.
Diversearbetare
· Göteborg
· 9 470 inlägg
Så är det naturligtvis. Tipset gällde generella frågor kring hur man digitaliserar pappersburen information..mycke_nu skrev:
Är själv Linux-användare så har bara tittat över axeln på någon annan, men jag undrar om inte skanningsverktyget som följer med Windows även detta gör exakt samma sak.Johan Gunverth skrev:Efter mycket labbande med klassikern Tesseract hos en kund där jag byggde ett OCR-flöde från kopiator till användare, inså jag att någon annan redan hade gjort större delen av arbetet i programmet PDF OCR X
Grundfunktion: släpp en befintligt bildfil eller flersidig scannad PDF på programmet. Ut kommer en likadan PDF med ett dolt textskikt som därmed gör scanningen sökbar.
Diversearbetare
· Göteborg
· 9 470 inlägg
Mycket möjligt att den också bygger på Tesseract. HP utvecklade programvaran 1985-1994 och släppte sedan allt som Open Source. För Linux-användare finns det en uppsjö paketeringar baserad på densamma. För mig som OS X-användare får man kompilera själv, köra HomeBrew/MacPorts eller använda ovan nämnda färdigpackade binär.cpalm skrev:
Hur som helst är Tesseract mycket pålitlig och missar knappast någon teckentolkning. Lätt att lära in specialare också.
Ingen aning om den använder Tesseract eller inte... Dock har jag själv inte alls samma erfarenhet av Tesseract och tolkning av t.ex. fakturor. Oavsett upplösning får jag ganska uselt resultat, ofta beroende på dess primitiva layout-analys som orsakar problem med text som ligger nära linjer och andra grafiska element, eller när textstorleken varierar mycket. Just kvitton lider väl förstås inte av just dessa problem, har inte så stor erfarenhet där.Johan Gunverth skrev:
Så om du har några specifika knep att dela med dig av vore de väldigt välkomna.
Diversearbetare
· Göteborg
· 9 470 inlägg
Från version 3.0 gick projektet över till att använda Leptonica för grafikanalysen. Det verkar ha gjort hela grejen i. Jag har scannat och konverterat runt 25.000 A4 och vi har fortfarande inte hittat några fel att bry sig om. Tyvärr ingen erfarenhet av tidigare versioner av Tesseract.cpalm skrev:Ingen aning om den använder Tesseract eller inte... Dock har jag själv inte alls samma erfarenhet av Tesseract och tolkning av t.ex. fakturor. Oavsett upplösning får jag ganska uselt resultat, ofta beroende på dess primitiva layout-analys som orsakar problem med text som ligger nära linjer och andra grafiska element, eller när textstorleken varierar mycket. Just kvitton lider väl förstås inte av just dessa problem, har inte så stor erfarenhet där.
Så om du har några specifika knep att dela med dig av vore de väldigt välkomna.
Mina senaste erfarenheter baserar sig på 3.02.02 där jag tyvärr ändå inte lyckas få tillfredsställande resultat. Mycket intressant att höra att du har lyckats bättre. Jag skickar ett PM så kanske du kan testa någon av mina filer och se om vi kan lyckas bena ut varför det inte fungerar bra för mig?
Produkter som diskuteras i tråden
Liknande trådar
-
Digitala dörrlås
Villalarm & Hemautomation -
Digitala handtag - Matchande handtag till övriga fönster?
Fönster & Dörrar -
Är det någon som äger digitala LVI Yali purmo olje-radiatorer? Har lite frågor…
Värme allmänt -
Digitala termostater till vattenradiatorer
Värme allmänt -
Är det värt med digitala termostater till vattenburen element?
Värme allmänt