Azure OCR, ook wel Computer Vision genoemd, is de cloudgebaseerde service van Microsoft die kan worden geïntegreerd in verschillende applicaties. Het is niet op zichzelf staande software, maar eerder een cloudtoepassing die werkt via een Application Program Interface (API). Microsoft gebruikt zijn superieure computer vision technologie voor de Azure OCR service, en één van de hoogtepunten van deze cloudtool is Azure Handwriting Recognition, momenteel één van de beste technologieën voor beeldherkenning die beschikbaar zijn voor het grote publiek.

Omdat OCR in Azure vooral bedoeld is als een tool voor ontwikkelaars om te integreren in hun applicaties, is het meestal niet ontworpen voor individuele gebruikers. Hier zijn enkele goede OCR-alternatieven die je zelf kunt proberen.
Azure OCR-alternatieven om nu uit te proberen
#1: PDFelement
PDFelement is een baanbrekende PDF-bewerkingsapplicatie die uitstekend is in batchverwerking van OCR, conversie en andere taken. Het is veel betaalbaarder dan Adobe Acrobat Pro DC, maar doet geen concessies aan de functies. Bovendien is de intuïtieve interface gemakkelijk te navigeren en overzichtelijk, in tegenstelling tot de meer volle interface van Acrobat.
Het grote voordeel van PDFelement is dat de gebruikersinterface opzettelijk gelijk is voor zowel Mac- als PC-versies, wat het overschakelen gemakkelijk maakt. Bij het bewerken merk je dat layout veel ordelijker wordt afgehandeld wanneer er veel verschillende bewerkbare elementen of blokken in je PDF-document staan. De software biedt ook een robuuste set van annotatie- en markeringstools. Je kunt achtergronden wijzigen, watermerken toevoegen aan meerdere documenten, ondertekenen, beveiligingsinstellingen toepassen, converteren naar en van meerdere formaten, formulieren maken, beheren en extraheren, en veel meer.

#2: Adobe Acrobat Pro DC
Naast robuuste OCR-functionaliteit kan Adobe's meest gebruikte PDF-editor al je PDF-behoeften aan. De OCR-functie is vrij nauwkeurig en ook snel. Meestal kun je meteen beginnen met het bewerken van een gescand document zodra het verwerken voltooid is, wat typisch slechts een paar seconden duurt voor één pagina.

Het duidelijke voordeel hier is de naadloze integratie met apps zoals Photoshop, ook van Adobe. Bijvoorbeeld, een collega die Photoshop in de cloud gebruikt kan makkelijk een afbeelding met tekst bijwerken voor extra duidelijkheid, en je kunt het snel in Acrobat importeren vanuit de cloudserver en OCR erop uitvoeren. Een handige functie is het scannen van tekst in tabelvorm. Niet veel tools kunnen dit goed aan, maar Adobe Acrobat doet dit vrij prima.
Het voor de hand liggende nadeel van Adobe-producten is de prijs. Voor een klein bedrijf met beperkte middelen kan het behoorlijk duur zijn. Gelukkig zijn er alternatieven die net zo capabel zijn.
#3: Abbyy FineReader
Dit is een doelgerichte softwaretool voor OCR en bestaat al lang. Het biedt een volledige lijst met functies waarmee je elk gescand document kunt omzetten naar een machineleesbare versie. Lichte bewerkingen zijn ook mogelijk, evenals annoteren van PDF documenten. Zoals de naam suggereert is het geen volledige PDF-editor, dus verwacht geen uitgebreide PDF-hulpmiddelen.

Abbyy FineReader heeft alles wat je nodig hebt voor OCR en omzettingen van afbeeldingen naar tekst. Het kan handgeschreven en tabelgegevens goed verwerken en is ideaal om elke soort afbeeldinggebaseerde tekst om te zetten naar een digitaal formaat. Zodra je de digitale versie van de tekst hebt, kun je documenten eenvoudig organiseren en annotaties toevoegen waar nodig. Ook kun je PDF-documenten omzetten naar Word en andere uitvoerformaten voor gemakkelijke integratie met andere productiviteitstoepassingen.
Het enige probleem met Abbyy FineReader is dat het erg duur kan zijn voor de Pro-versie. Aangezien het geen volledige PDF-editor is, moet je goed overwegen tenzij je regelmatig OCR gebruikt en het de investering waard is.
#4: OmniPage Ultimate
Dit is een serieus professioneel OCR-tool voor grote hoeveelheden tekst in afbeeldingsformaat. Het wordt gebruikt door enkele van de grootste organisaties ter wereld, zoals General Electric en Amazon. De Standard-editie is beperkt qua functionaliteit, maar de Ultimate-editie doet zijn naam eer aan.

OmniPage is in principe een massale OCR-tool voor hoge volumes die bestaan uit het scannen van facturen, papierformulieren, enzovoorts. Het nauwkeurigheidsniveau is heel hoog, en het grootste voordeel is dat conversie in specifieke workflows kan worden geplaatst die samenwerking tussen collega's of teams vergemakkelijkt. Je kunt het basically krijgen waar je wilt in het juiste format, en alles is geautomatiseerd zodra je het één keer hebt opgezet.
OmniPage Ultimate is behoorlijk duur voor een klein bedrijf of individueel gebruik, dus de Standard-editie kan geschikter zijn. Echter, die biedt weinig aanpassingsmogelijkheden of opties qua uitvoerformaat.
#5: Readiris
Deze OCR-software is in de standaardversie vrij basic, maar er zijn ook Pro en Corporate-versies die duurder zijn. De standaardversie is ideaal voor beperkte gebruiksscenario’s, zoals af en toe afbeeldingen naar tekst omzetten via OCR.

De soepele UI (gebruikersinterface) is één van de aantrekkelijkste kenmerken van deze applicatie. Het is makkelijk te leren en erg intuïtief, vooral voor beginnende gebruikers. De Pro- en Corporate-versies kunnen hoge documentvolumes aan, en de nauwkeurigheid van tekstherkenning is ook veel beter dan in de standaardversie. Er zijn tal van andere tools en functies die deze investering de moeite waard maken als jouw bedrijf veel OCR-taken doet, zoals het scannen van handgeschreven formulieren, tabulaire tekstdata in niet-bewerkbare formaten, enzovoorts.
Opnieuw kan prijs een beperkende factor zijn als je veel nodig hebt maar een klein budget hebt. Echter, het betaalt zichzelf terug na een paar weken als je veel niet-digitale documenten hebt waarvan je de tekst moet extraheren en omzetten naar digitale formaten en verschillende uitvoertypes.
Hoe tekst uit afbeeldingen kopiëren met Azure OCR
Afhankelijk van de applicatie waarin je Azure OCR hebt geïntegreerd, kan het proces enigszins verschillen. De algemene workflow is echter hetzelfde, zoals hieronder beschreven:
Stap 1: Zorg ervoor dat je bronafbeelding in één van deze formaten staat: TIFF, PDF, JPG, BMP of PNG.
Stap 2: Zodra de afbeelding beschikbaar is, stuur een verzoek via de Read API, de nieuwste versie van de Recognize Text API. Je kunt ook de OCR API gebruiken, maar die wordt niet aanbevolen voor grote documenten.
Let op: Je moet verschillende parameters toevoegen aan je verzoeken, zoals je abonnementssleutel voor de service, het type media, tekstoriëntatie in de afbeelding, de afbeelding zelf of de URL ervan, en andere nodige parameters voor de header en body van het verzoek.
Stap 3: Krijg je een Response 202, dan betekent dit dat het verzoek succesvol is geaccepteerd. Er wordt ook een Operation-Location header verstrekt, waarmee de client-applicatie het operationele proces kan opvragen om status en resultaat te verkrijgen.
Dit is vooral voor ontwikkelaars, en zelfs dan kan het verzoek terugkomen met één of meerdere fouten, zoals hieronder opgesomd:
Veelvoorkomende fouten en oplossingen voor Azure OCR
Response 415: Dit betekent dat het mediatype niet wordt ondersteund door Azure OCR of Read API.
Oplossing: Wijzig het formaat van het document door het te converteren naar één van de geaccepteerde mediatypes, zoals vermeld bij Stap 1 hierboven. Controleer eventueel of de Content-Type die je hebt opgegeven in het verzoek overeenkomt met het werkelijk bestandsformaat van de afbeelding.
Response 400: Dit antwoord ontvang je onder verschillende omstandigheden, zoals een slecht geformatteerde afbeelding, niet-ondersteund formaat, geen download mogelijk via URL, afbeeldingen groter dan 20 MB, enzovoorts.
Oplossing: Pas de oplossing toe op basis van de foutcode. Soms is het simpel, zoals de bronafbeelding aanpassen qua grootte of afmetingen, en kun je het correcte verzoek opnieuw versturen nadat je de nodige wijzigingen hebt aangebracht.
Antwoorden 500 en 503: Dit zijn interne server- of Azure opslagservicefouten.
Oplossing: Verstuur het verzoek later opnieuw. Zulke fouten lossen meestal vanzelf op.
Vergelijkingstabel: Azure OCR vs. de anderen
| Functie |
Azure OCR (Read API)
|
PDFelement
|
Adobe Acrobat Pro DC
|
|---|---|---|---|
| Nauwkeurigheid | Hoog, gebruikt AI | Hoog | Hoog, behalve bij tabulaire of multi-kolom gegevens |
| Batch OCR | Ja | Ja | Ja, maar iets trager dan beide opties |
| Uitvoerformaat | Machineleesbare tekst | Meerdere formaten | Meerdere formaten |
| Functies | Alleen OCR | OCR, PDF maken, bewerken, annoteren, converteren, beveiliging, ondertekenen, markeren, paginabeheer, enzovoorts | OCR, PDF maken, bewerken, annoteren, converteren, beveiliging, ondertekenen, markeren, paginabeheer, enzovoorts |
| Verwerkingssnelheid | Afhankelijk van beschikbaarheid van service | Snel | Snel |
| Betaalbaarheid | Vereist Azure cloud-abonnement | Betaalbaar | Duur |
Conclusie: Azure OCR is een uitstekend hulpmiddel voor grote organisaties, maar als je een klein bedrijf bent dat slechts af en toe afbeeldingen naar tekst omzet via OCR, dan is PDFelement de meest betaalbare en veelzijdige optie. Adobe is een goede PDF-editor, maar de kosten van een abonnement of losse licentie kunnen in veel gevallen een obstakel vormen.

Carina Lange
Editor