首頁人工智能技術資訊正文

什么是OCR?OCR技術詳解

更新時間:2020-09-30 來源:黑馬程序員 瀏覽量:

光學字符識別(Optical Character Recognition)簡稱為“OCR”。ORC是指對包含文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的技術。

一般包括以下幾個過程:

1.圖像輸入

針對不同格式的圖像,有著不同的存儲格式和壓縮方式。目前,用于存取圖像的開源項目有OpenCV和CxImage等。

2.預處理

預處理主要包括二值化、噪聲去除和傾斜較正,具體內容如下:

1601447269495_OCR.jpg

二值化:大多數(shù)情況下,使用攝像頭拍攝的圖片都是彩色圖像,彩色圖像包含的信息量非常豐富,需要進行簡化。我們可以將圖片的內容簡單地分為前景和背景,為了讓計算機更快地、更好地識別文字,需要先對彩色圖像進行處理,使圖片只剩下前景與背景信息,即簡單地定義前景信息為黑色,背景信息為白色,這就是二值化圖。彩色圖像和二值化圖像處理前后對比如圖1所示。

噪聲清除:對于不同的文檔,噪聲的定義可以不同。根據噪聲的特征進行消除處理,這就叫做噪聲去除。

傾斜校正:通常情況下,用戶拍攝的照片比較隨意,很有可能拍照文檔會產生傾斜。這時,需要使用文字識別軟件進行校正。

3.版面分析

將文檔圖片分段落、分行的過程叫做版面分析。由于實際文檔的多樣性和復雜性,目前沒有一個固定的、最好的切割模型。

4.字符切割

由于拍照條件的限制,經常會造成字符粘連、斷筆等情況,因此極大地限制了識別系統(tǒng)的性能。此時就需要文字識別軟件具備字符切割的功能。

5.字符識別

很早的時候就有模板匹配,后來是以特征提取為主。由于文字的位移、筆畫的粗細、斷筆、粘連、旋轉等因素的影響,極大地增加了提取的難度。

6.版面恢復

通常,人類希望識別后的文字,仍然按照原文檔圖片那樣排列著,保持段落不變、位置不變、順序不變,之后輸出到Word文檔或PDF文檔,這個過程就叫做版面恢復。

7.后處理、核對

不同的語言環(huán)境中,語言的邏輯順序是不同的。因此,需要根據語言特征的上下文,對識別后的結果進行校正,這個過程就是后處理。


猜你喜歡:

python人工智能之人臉識別綜合應用與實踐 

人工智能之機器學習教程

人工智能培訓課程


分享到:
在線咨詢 我要報名
和我們在線交談!