Uppdatering av tråden. Efter mycket labbande med klassikern Tesseract hos en kund där jag byggde ett OCR-flöde från kopiator till användare, inså jag att någon annan redan hade gjort större delen av arbetet i programmet PDF OCR X :D
Grundfunktion: släpp en befintligt bildfil eller flersidig scannad PDF på programmet. Ut kommer en likadan PDF med ett dolt textskikt som därmed gör scanningen sökbar.

Mac eller Windows. Gratis, om man inte vill bygga automatiska bakgrundsflöden då den kostar $30. Det senare kan ju också lösas med egen kompilering av Tesseract med tillhörande Leptonica och ImageMagick.
 
Vi skall väl bara förtydliga att Skatteverket (eller möjligen Bokföringsnämnden) kräver att verifikationer sparas i den form de emottogs.

Efakturor kan alltså sparas digitalt, pappersfakturor skall spara på papper. Etc.
 
mycke_nu skrev:
Vi skall väl bara förtydliga att Skatteverket (eller möjligen Bokföringsnämnden) kräver att verifikationer sparas i den form de emottogs.

Efakturor kan alltså sparas digitalt, pappersfakturor skall spara på papper. Etc.
Så är det naturligtvis. Tipset gällde generella frågor kring hur man digitaliserar pappersburen information..
 
C
Johan Gunverth skrev:
Efter mycket labbande med klassikern Tesseract hos en kund där jag byggde ett OCR-flöde från kopiator till användare, inså jag att någon annan redan hade gjort större delen av arbetet i programmet PDF OCR X :D
Grundfunktion: släpp en befintligt bildfil eller flersidig scannad PDF på programmet. Ut kommer en likadan PDF med ett dolt textskikt som därmed gör scanningen sökbar.
Är själv Linux-användare så har bara tittat över axeln på någon annan, men jag undrar om inte skanningsverktyget som följer med Windows även detta gör exakt samma sak.
 
cpalm skrev:
Är själv Linux-användare så har bara tittat över axeln på någon annan, men jag undrar om inte skanningsverktyget som följer med Windows även detta gör exakt samma sak.
Mycket möjligt att den också bygger på Tesseract. HP utvecklade programvaran 1985-1994 och släppte sedan allt som Open Source. För Linux-användare finns det en uppsjö paketeringar baserad på densamma. För mig som OS X-användare får man kompilera själv, köra HomeBrew/MacPorts eller använda ovan nämnda färdigpackade binär.

Hur som helst är Tesseract mycket pålitlig och missar knappast någon teckentolkning. Lätt att lära in specialare också.
 
C
Johan Gunverth skrev:
Hur som helst är Tesseract mycket pålitlig och missar knappast någon teckentolkning. Lätt att lära in specialare också.
Ingen aning om den använder Tesseract eller inte... Dock har jag själv inte alls samma erfarenhet av Tesseract och tolkning av t.ex. fakturor. Oavsett upplösning får jag ganska uselt resultat, ofta beroende på dess primitiva layout-analys som orsakar problem med text som ligger nära linjer och andra grafiska element, eller när textstorleken varierar mycket. Just kvitton lider väl förstås inte av just dessa problem, har inte så stor erfarenhet där.
Så om du har några specifika knep att dela med dig av vore de väldigt välkomna. :)
 
cpalm skrev:
Ingen aning om den använder Tesseract eller inte... Dock har jag själv inte alls samma erfarenhet av Tesseract och tolkning av t.ex. fakturor. Oavsett upplösning får jag ganska uselt resultat, ofta beroende på dess primitiva layout-analys som orsakar problem med text som ligger nära linjer och andra grafiska element, eller när textstorleken varierar mycket. Just kvitton lider väl förstås inte av just dessa problem, har inte så stor erfarenhet där.
Så om du har några specifika knep att dela med dig av vore de väldigt välkomna. :)
Från version 3.0 gick projektet över till att använda Leptonica för grafikanalysen. Det verkar ha gjort hela grejen i. Jag har scannat och konverterat runt 25.000 A4 och vi har fortfarande inte hittat några fel att bry sig om. Tyvärr ingen erfarenhet av tidigare versioner av Tesseract.
 
C
Mina senaste erfarenheter baserar sig på 3.02.02 där jag tyvärr ändå inte lyckas få tillfredsställande resultat. Mycket intressant att höra att du har lyckats bättre. Jag skickar ett PM så kanske du kan testa någon av mina filer och se om vi kan lyckas bena ut varför det inte fungerar bra för mig?
 
Produkter som diskuteras i tråden
Vi vill skicka notiser för ämnen du bevakar och händelser som berör dig.