Optisk tegngenkendelse til dansk







29-03-2024

Venligst bogmærke denne side.



Optisk tegngenkendelse (OCR) er elektronisk eller mekanisk konvertering af billeder af maskinskrevet, håndskrevet eller trykt tekst til maskinkodet tekst, hvad enten det er fra et scannet dokument, et foto af et dokument, et scenefoto (f.eks. teksten på skilte og billboards i et landskab fotografi), eller fra undertekster overlejret på et billede (for eksempel: fra en tv-udsendelse).

Udbredt til at indtaste data fra trykte papirregistre – uanset om det er pas, fakturaer, kontoudtog, edb-kvitteringer, visitkort, post, udskrifter af statiske data eller anden passende dokumentation – er det en almindelig metode til digitalisering af trykte tekster, så de kan være elektronisk redigeret, søgt, lagret mere kompakt, vist online og brugt i maskinprocesser såsom kognitiv databehandling, maskinoversættelse og (udtrækket) tekst-til-sp OCR er et underområde af mønstergenkendelsesundersøgelse, der omfatter kunstig intelligens og computersyn.

Tidligere versioner krævede træning med fotografier af individuelle karakterer og arbejdede på en enkelt skrifttype ad gangen. Avancerede systemer, der er i stand til at levere en høj grad af identifikationsnøjagtighed for de fleste skrifttyper, er nu bredt tilgængelige, ligesom systemer, der accepterer en række digitale billedfilformater som input. Visse systemer er i stand til at replikere formateret output, der ligner den originale side så meget som muligt, inklusive grafik, spalter og andre ikke-tekstuelle komponenter.