盤(pán)俊春
老師們?cè)谌粘=虒W(xué)中經(jīng)常會(huì)碰到這樣的問(wèn)題,就是想把一張圖片或一個(gè)PDF文件里的文字拿出來(lái)放到Word里編輯。當(dāng)然想直接把文字復(fù)制到Word里是不行的,因?yàn)閳D片和PDF文件里的文字是無(wú)法復(fù)制的。這時(shí)候很多老師可能會(huì)選擇一個(gè)字一個(gè)字敲進(jìn)電腦,太麻煩了。是不是希望有一種東西能自動(dòng)識(shí)別讀取這些文字?怎么去做呢?筆者在試過(guò)很多方法后,得出的結(jié)論是:使用Abbyy FineReader軟件來(lái)實(shí)現(xiàn)轉(zhuǎn)化是最好的辦法。下面就來(lái)介紹它的功能及使用方法。
● ABBYE FineReader的主要功能及特點(diǎn)
AbbyyFineReader是俄羅斯ABBYY公司研制成功的一款真正的專業(yè)OCR的軟件!OCR(Optical Character Recognition,光學(xué)字符識(shí)別)技術(shù),是指電子設(shè)備(如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。
安裝并打開(kāi)軟件(官方下載地址:http://www.abbyy.cn/),啟動(dòng)后顯示任務(wù)窗口,在窗口的右上角選擇文檔語(yǔ)言,這里選擇了簡(jiǎn)體中文。在任務(wù)窗口中有幾個(gè)常用任務(wù)選項(xiàng),包括Word、PDF、電子書(shū)和其他格式等文件操作(如圖1)。
界面很簡(jiǎn)潔,菜單類似于普通的Windows菜單,如有“文件”、“編輯”等菜單命令,即使是新手,也能不費(fèi)吹灰之力就使用該軟件。
Abbyy FineReader的主要功能和特點(diǎn)為:①把靜態(tài)紙文件和PDF文件轉(zhuǎn)換成可管理的電子數(shù)據(jù);②重建原生的多頁(yè)文件格式;③支持輕松創(chuàng)建最流行格式的電子圖書(shū);④可以提供直觀的工具掃描文件,并隨時(shí)轉(zhuǎn)換圖像掃描、照片成為可編輯和可搜索的電子格式的PDF文件;⑤多國(guó)語(yǔ)言可以選擇,能轉(zhuǎn)換幾乎所有打印的文檔類型,包括書(shū)籍、雜志上的文章與復(fù)雜的布局、表格和電子表格,甚至能以準(zhǔn)確的精度發(fā)傳真。
● Abbyy FineReader在教學(xué)中的應(yīng)用
下面以把PDF中的文字轉(zhuǎn)換成Word中的文字為例,來(lái)說(shuō)說(shuō)Abbyy FineReader軟件的具體應(yīng)用。
1.打開(kāi)PDF文件并設(shè)置參數(shù)
進(jìn)入Abbyy FineReader軟件,選擇任務(wù)后會(huì)自動(dòng)進(jìn)入下一個(gè)界面,此時(shí)會(huì)自動(dòng)彈出讓使用者選擇文件,如果沒(méi)有選擇文件,則可以在菜單欄中點(diǎn)擊“打開(kāi)”,然后選擇需要轉(zhuǎn)換的文件,注意在文件類型中選擇相應(yīng)的類型,這里應(yīng)該選擇PDF,默認(rèn)的是圖形文件,不更改的話最后得到的是亂碼。
打開(kāi)后可進(jìn)行基本設(shè)置。在菜單欄中選擇“工具”中的“選項(xiàng)”,彈出如圖2的窗口。選項(xiàng)設(shè)置窗口中可以設(shè)置要保存的格式,里面有10種可選的格式,這里我們轉(zhuǎn)成的是DOC或者DOCX,所以選擇第一個(gè)。窗口里面還有讀取模式等多項(xiàng)設(shè)置,這里就不再一一列舉了。
2.文字識(shí)別
在所打開(kāi)的PDF文件中,選擇要轉(zhuǎn)換的頁(yè)面,當(dāng)然也可以對(duì)全部頁(yè)面或頁(yè)面的部分內(nèi)容進(jìn)行轉(zhuǎn)換。這里有兩個(gè)窗口,一個(gè)是轉(zhuǎn)換前的PDF圖像頁(yè)面,另一個(gè)是轉(zhuǎn)換后的文本頁(yè)面。單擊PDF圖像頁(yè)面窗口的“讀取”選項(xiàng),進(jìn)行OCR識(shí)別,就是讓軟件把圖片中的文字讀取出來(lái)(圖片中文字越多,識(shí)別花費(fèi)的時(shí)間越長(zhǎng)),完成識(shí)別之后,就會(huì)在文本頁(yè)面出現(xiàn)所轉(zhuǎn)換的文本。其中的一些文字帶有青色背景底色,這說(shuō)明這些文字是有可能出現(xiàn)錯(cuò)誤的,我們要對(duì)它們進(jìn)行修正(如圖3)。
3.文字修正
一般來(lái)講,圖片越清晰、對(duì)比越鮮明的時(shí)候,該軟件對(duì)文字的識(shí)別率就越高。識(shí)別率與圖片清晰度、文字大小、文字的端正程度、文字與底色的對(duì)比程度有關(guān)。Abbyy FineReader的識(shí)別率在所有OCR軟件中是最好的,基本能在95%以上,當(dāng)然不能保證100%。為保險(xiǎn)起見(jiàn),還是要人工核對(duì)一下識(shí)別的結(jié)果,尤其是格式特別復(fù)雜、有特殊文字和符號(hào)的地方很容易出錯(cuò)。當(dāng)然如果使用者用肉眼都看不清楚或者不能分辨的文字,那該軟件識(shí)別出來(lái)的可能性是不大的。
該軟件的原理是使用掃描的文本字符與系統(tǒng)內(nèi)置的字符形狀、語(yǔ)言辭典進(jìn)行比較,從而識(shí)別文字,只能掃描指定的語(yǔ)言,其他語(yǔ)言不能識(shí)別。所以如果錯(cuò)誤率太高,則要更改使用的掃描語(yǔ)言。
單擊文本頁(yè)面窗口的“驗(yàn)證”選項(xiàng),此時(shí)會(huì)彈出驗(yàn)證窗口(如圖4)。在這個(gè)窗口中會(huì)有一些帶有青色背景底色的不確定文字或字符,如果錯(cuò)誤的話我們可以直接修改,若是正確則可點(diǎn)擊“忽略”跳過(guò)。
完成修正后就可以保存所轉(zhuǎn)換的文本了,有包括DOC/DOCX在內(nèi)的10多種保存格式可以選擇,一般選擇為Word97-2003格式或DOCX格式,完成后就能在Word中進(jìn)行文本編輯了。對(duì)于提取JPG、BMP等格式圖片中的文字的方法與PDF格式操作大同小異,這里就不再說(shuō)明。
另外,值得一提的是,如果圖片較為模糊或擺放不正,會(huì)影響軟件對(duì)圖片文字的讀取效果,此時(shí)使用者就需要用到工具欄中的“編輯圖像”進(jìn)行圖像校正。點(diǎn)擊“編輯圖像”就會(huì)彈出圖像編輯窗口(如圖5)。使用者可以看到右側(cè)有一排工具,用這些工具可以對(duì)圖像的歪斜校正等多種參數(shù)進(jìn)行編輯修正處理,這樣會(huì)大大提高圖片的識(shí)別率。
總的來(lái)說(shuō),Abbyy FineReader軟件不愧是最好的圖片、PDF文字識(shí)別軟件,它能給我們的教育教學(xué)帶來(lái)極大的便捷。
endprint
老師們?cè)谌粘=虒W(xué)中經(jīng)常會(huì)碰到這樣的問(wèn)題,就是想把一張圖片或一個(gè)PDF文件里的文字拿出來(lái)放到Word里編輯。當(dāng)然想直接把文字復(fù)制到Word里是不行的,因?yàn)閳D片和PDF文件里的文字是無(wú)法復(fù)制的。這時(shí)候很多老師可能會(huì)選擇一個(gè)字一個(gè)字敲進(jìn)電腦,太麻煩了。是不是希望有一種東西能自動(dòng)識(shí)別讀取這些文字?怎么去做呢?筆者在試過(guò)很多方法后,得出的結(jié)論是:使用Abbyy FineReader軟件來(lái)實(shí)現(xiàn)轉(zhuǎn)化是最好的辦法。下面就來(lái)介紹它的功能及使用方法。
● ABBYE FineReader的主要功能及特點(diǎn)
AbbyyFineReader是俄羅斯ABBYY公司研制成功的一款真正的專業(yè)OCR的軟件!OCR(Optical Character Recognition,光學(xué)字符識(shí)別)技術(shù),是指電子設(shè)備(如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。
安裝并打開(kāi)軟件(官方下載地址:http://www.abbyy.cn/),啟動(dòng)后顯示任務(wù)窗口,在窗口的右上角選擇文檔語(yǔ)言,這里選擇了簡(jiǎn)體中文。在任務(wù)窗口中有幾個(gè)常用任務(wù)選項(xiàng),包括Word、PDF、電子書(shū)和其他格式等文件操作(如圖1)。
界面很簡(jiǎn)潔,菜單類似于普通的Windows菜單,如有“文件”、“編輯”等菜單命令,即使是新手,也能不費(fèi)吹灰之力就使用該軟件。
Abbyy FineReader的主要功能和特點(diǎn)為:①把靜態(tài)紙文件和PDF文件轉(zhuǎn)換成可管理的電子數(shù)據(jù);②重建原生的多頁(yè)文件格式;③支持輕松創(chuàng)建最流行格式的電子圖書(shū);④可以提供直觀的工具掃描文件,并隨時(shí)轉(zhuǎn)換圖像掃描、照片成為可編輯和可搜索的電子格式的PDF文件;⑤多國(guó)語(yǔ)言可以選擇,能轉(zhuǎn)換幾乎所有打印的文檔類型,包括書(shū)籍、雜志上的文章與復(fù)雜的布局、表格和電子表格,甚至能以準(zhǔn)確的精度發(fā)傳真。
● Abbyy FineReader在教學(xué)中的應(yīng)用
下面以把PDF中的文字轉(zhuǎn)換成Word中的文字為例,來(lái)說(shuō)說(shuō)Abbyy FineReader軟件的具體應(yīng)用。
1.打開(kāi)PDF文件并設(shè)置參數(shù)
進(jìn)入Abbyy FineReader軟件,選擇任務(wù)后會(huì)自動(dòng)進(jìn)入下一個(gè)界面,此時(shí)會(huì)自動(dòng)彈出讓使用者選擇文件,如果沒(méi)有選擇文件,則可以在菜單欄中點(diǎn)擊“打開(kāi)”,然后選擇需要轉(zhuǎn)換的文件,注意在文件類型中選擇相應(yīng)的類型,這里應(yīng)該選擇PDF,默認(rèn)的是圖形文件,不更改的話最后得到的是亂碼。
打開(kāi)后可進(jìn)行基本設(shè)置。在菜單欄中選擇“工具”中的“選項(xiàng)”,彈出如圖2的窗口。選項(xiàng)設(shè)置窗口中可以設(shè)置要保存的格式,里面有10種可選的格式,這里我們轉(zhuǎn)成的是DOC或者DOCX,所以選擇第一個(gè)。窗口里面還有讀取模式等多項(xiàng)設(shè)置,這里就不再一一列舉了。
2.文字識(shí)別
在所打開(kāi)的PDF文件中,選擇要轉(zhuǎn)換的頁(yè)面,當(dāng)然也可以對(duì)全部頁(yè)面或頁(yè)面的部分內(nèi)容進(jìn)行轉(zhuǎn)換。這里有兩個(gè)窗口,一個(gè)是轉(zhuǎn)換前的PDF圖像頁(yè)面,另一個(gè)是轉(zhuǎn)換后的文本頁(yè)面。單擊PDF圖像頁(yè)面窗口的“讀取”選項(xiàng),進(jìn)行OCR識(shí)別,就是讓軟件把圖片中的文字讀取出來(lái)(圖片中文字越多,識(shí)別花費(fèi)的時(shí)間越長(zhǎng)),完成識(shí)別之后,就會(huì)在文本頁(yè)面出現(xiàn)所轉(zhuǎn)換的文本。其中的一些文字帶有青色背景底色,這說(shuō)明這些文字是有可能出現(xiàn)錯(cuò)誤的,我們要對(duì)它們進(jìn)行修正(如圖3)。
3.文字修正
一般來(lái)講,圖片越清晰、對(duì)比越鮮明的時(shí)候,該軟件對(duì)文字的識(shí)別率就越高。識(shí)別率與圖片清晰度、文字大小、文字的端正程度、文字與底色的對(duì)比程度有關(guān)。Abbyy FineReader的識(shí)別率在所有OCR軟件中是最好的,基本能在95%以上,當(dāng)然不能保證100%。為保險(xiǎn)起見(jiàn),還是要人工核對(duì)一下識(shí)別的結(jié)果,尤其是格式特別復(fù)雜、有特殊文字和符號(hào)的地方很容易出錯(cuò)。當(dāng)然如果使用者用肉眼都看不清楚或者不能分辨的文字,那該軟件識(shí)別出來(lái)的可能性是不大的。
該軟件的原理是使用掃描的文本字符與系統(tǒng)內(nèi)置的字符形狀、語(yǔ)言辭典進(jìn)行比較,從而識(shí)別文字,只能掃描指定的語(yǔ)言,其他語(yǔ)言不能識(shí)別。所以如果錯(cuò)誤率太高,則要更改使用的掃描語(yǔ)言。
單擊文本頁(yè)面窗口的“驗(yàn)證”選項(xiàng),此時(shí)會(huì)彈出驗(yàn)證窗口(如圖4)。在這個(gè)窗口中會(huì)有一些帶有青色背景底色的不確定文字或字符,如果錯(cuò)誤的話我們可以直接修改,若是正確則可點(diǎn)擊“忽略”跳過(guò)。
完成修正后就可以保存所轉(zhuǎn)換的文本了,有包括DOC/DOCX在內(nèi)的10多種保存格式可以選擇,一般選擇為Word97-2003格式或DOCX格式,完成后就能在Word中進(jìn)行文本編輯了。對(duì)于提取JPG、BMP等格式圖片中的文字的方法與PDF格式操作大同小異,這里就不再說(shuō)明。
另外,值得一提的是,如果圖片較為模糊或擺放不正,會(huì)影響軟件對(duì)圖片文字的讀取效果,此時(shí)使用者就需要用到工具欄中的“編輯圖像”進(jìn)行圖像校正。點(diǎn)擊“編輯圖像”就會(huì)彈出圖像編輯窗口(如圖5)。使用者可以看到右側(cè)有一排工具,用這些工具可以對(duì)圖像的歪斜校正等多種參數(shù)進(jìn)行編輯修正處理,這樣會(huì)大大提高圖片的識(shí)別率。
總的來(lái)說(shuō),Abbyy FineReader軟件不愧是最好的圖片、PDF文字識(shí)別軟件,它能給我們的教育教學(xué)帶來(lái)極大的便捷。
endprint
老師們?cè)谌粘=虒W(xué)中經(jīng)常會(huì)碰到這樣的問(wèn)題,就是想把一張圖片或一個(gè)PDF文件里的文字拿出來(lái)放到Word里編輯。當(dāng)然想直接把文字復(fù)制到Word里是不行的,因?yàn)閳D片和PDF文件里的文字是無(wú)法復(fù)制的。這時(shí)候很多老師可能會(huì)選擇一個(gè)字一個(gè)字敲進(jìn)電腦,太麻煩了。是不是希望有一種東西能自動(dòng)識(shí)別讀取這些文字?怎么去做呢?筆者在試過(guò)很多方法后,得出的結(jié)論是:使用Abbyy FineReader軟件來(lái)實(shí)現(xiàn)轉(zhuǎn)化是最好的辦法。下面就來(lái)介紹它的功能及使用方法。
● ABBYE FineReader的主要功能及特點(diǎn)
AbbyyFineReader是俄羅斯ABBYY公司研制成功的一款真正的專業(yè)OCR的軟件!OCR(Optical Character Recognition,光學(xué)字符識(shí)別)技術(shù),是指電子設(shè)備(如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。
安裝并打開(kāi)軟件(官方下載地址:http://www.abbyy.cn/),啟動(dòng)后顯示任務(wù)窗口,在窗口的右上角選擇文檔語(yǔ)言,這里選擇了簡(jiǎn)體中文。在任務(wù)窗口中有幾個(gè)常用任務(wù)選項(xiàng),包括Word、PDF、電子書(shū)和其他格式等文件操作(如圖1)。
界面很簡(jiǎn)潔,菜單類似于普通的Windows菜單,如有“文件”、“編輯”等菜單命令,即使是新手,也能不費(fèi)吹灰之力就使用該軟件。
Abbyy FineReader的主要功能和特點(diǎn)為:①把靜態(tài)紙文件和PDF文件轉(zhuǎn)換成可管理的電子數(shù)據(jù);②重建原生的多頁(yè)文件格式;③支持輕松創(chuàng)建最流行格式的電子圖書(shū);④可以提供直觀的工具掃描文件,并隨時(shí)轉(zhuǎn)換圖像掃描、照片成為可編輯和可搜索的電子格式的PDF文件;⑤多國(guó)語(yǔ)言可以選擇,能轉(zhuǎn)換幾乎所有打印的文檔類型,包括書(shū)籍、雜志上的文章與復(fù)雜的布局、表格和電子表格,甚至能以準(zhǔn)確的精度發(fā)傳真。
● Abbyy FineReader在教學(xué)中的應(yīng)用
下面以把PDF中的文字轉(zhuǎn)換成Word中的文字為例,來(lái)說(shuō)說(shuō)Abbyy FineReader軟件的具體應(yīng)用。
1.打開(kāi)PDF文件并設(shè)置參數(shù)
進(jìn)入Abbyy FineReader軟件,選擇任務(wù)后會(huì)自動(dòng)進(jìn)入下一個(gè)界面,此時(shí)會(huì)自動(dòng)彈出讓使用者選擇文件,如果沒(méi)有選擇文件,則可以在菜單欄中點(diǎn)擊“打開(kāi)”,然后選擇需要轉(zhuǎn)換的文件,注意在文件類型中選擇相應(yīng)的類型,這里應(yīng)該選擇PDF,默認(rèn)的是圖形文件,不更改的話最后得到的是亂碼。
打開(kāi)后可進(jìn)行基本設(shè)置。在菜單欄中選擇“工具”中的“選項(xiàng)”,彈出如圖2的窗口。選項(xiàng)設(shè)置窗口中可以設(shè)置要保存的格式,里面有10種可選的格式,這里我們轉(zhuǎn)成的是DOC或者DOCX,所以選擇第一個(gè)。窗口里面還有讀取模式等多項(xiàng)設(shè)置,這里就不再一一列舉了。
2.文字識(shí)別
在所打開(kāi)的PDF文件中,選擇要轉(zhuǎn)換的頁(yè)面,當(dāng)然也可以對(duì)全部頁(yè)面或頁(yè)面的部分內(nèi)容進(jìn)行轉(zhuǎn)換。這里有兩個(gè)窗口,一個(gè)是轉(zhuǎn)換前的PDF圖像頁(yè)面,另一個(gè)是轉(zhuǎn)換后的文本頁(yè)面。單擊PDF圖像頁(yè)面窗口的“讀取”選項(xiàng),進(jìn)行OCR識(shí)別,就是讓軟件把圖片中的文字讀取出來(lái)(圖片中文字越多,識(shí)別花費(fèi)的時(shí)間越長(zhǎng)),完成識(shí)別之后,就會(huì)在文本頁(yè)面出現(xiàn)所轉(zhuǎn)換的文本。其中的一些文字帶有青色背景底色,這說(shuō)明這些文字是有可能出現(xiàn)錯(cuò)誤的,我們要對(duì)它們進(jìn)行修正(如圖3)。
3.文字修正
一般來(lái)講,圖片越清晰、對(duì)比越鮮明的時(shí)候,該軟件對(duì)文字的識(shí)別率就越高。識(shí)別率與圖片清晰度、文字大小、文字的端正程度、文字與底色的對(duì)比程度有關(guān)。Abbyy FineReader的識(shí)別率在所有OCR軟件中是最好的,基本能在95%以上,當(dāng)然不能保證100%。為保險(xiǎn)起見(jiàn),還是要人工核對(duì)一下識(shí)別的結(jié)果,尤其是格式特別復(fù)雜、有特殊文字和符號(hào)的地方很容易出錯(cuò)。當(dāng)然如果使用者用肉眼都看不清楚或者不能分辨的文字,那該軟件識(shí)別出來(lái)的可能性是不大的。
該軟件的原理是使用掃描的文本字符與系統(tǒng)內(nèi)置的字符形狀、語(yǔ)言辭典進(jìn)行比較,從而識(shí)別文字,只能掃描指定的語(yǔ)言,其他語(yǔ)言不能識(shí)別。所以如果錯(cuò)誤率太高,則要更改使用的掃描語(yǔ)言。
單擊文本頁(yè)面窗口的“驗(yàn)證”選項(xiàng),此時(shí)會(huì)彈出驗(yàn)證窗口(如圖4)。在這個(gè)窗口中會(huì)有一些帶有青色背景底色的不確定文字或字符,如果錯(cuò)誤的話我們可以直接修改,若是正確則可點(diǎn)擊“忽略”跳過(guò)。
完成修正后就可以保存所轉(zhuǎn)換的文本了,有包括DOC/DOCX在內(nèi)的10多種保存格式可以選擇,一般選擇為Word97-2003格式或DOCX格式,完成后就能在Word中進(jìn)行文本編輯了。對(duì)于提取JPG、BMP等格式圖片中的文字的方法與PDF格式操作大同小異,這里就不再說(shuō)明。
另外,值得一提的是,如果圖片較為模糊或擺放不正,會(huì)影響軟件對(duì)圖片文字的讀取效果,此時(shí)使用者就需要用到工具欄中的“編輯圖像”進(jìn)行圖像校正。點(diǎn)擊“編輯圖像”就會(huì)彈出圖像編輯窗口(如圖5)。使用者可以看到右側(cè)有一排工具,用這些工具可以對(duì)圖像的歪斜校正等多種參數(shù)進(jìn)行編輯修正處理,這樣會(huì)大大提高圖片的識(shí)別率。
總的來(lái)說(shuō),Abbyy FineReader軟件不愧是最好的圖片、PDF文字識(shí)別軟件,它能給我們的教育教學(xué)帶來(lái)極大的便捷。
endprint