电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

Java使用Tesseract-Ocr識別數字

瀏覽:112日期:2022-08-14 10:41:27
前言

Tesseract-Ocr是我在編寫爬蟲項目中,用來識別圖片(不是驗證碼)的本地解決方案(因為客戶不想使用API識別,太貴),識別率目前達到了100%,可以說是相當了得,當然了,這取決于使用的traineddata。

簡介

Tesseract最初是在1985年至1994年間在Hewlett-Packard Laboratories Bristol和Greeley Colorado的Hewlett-Packard Co開發的,1996年進行了一些更改,移植到Windows,并且隨著C++在1998年興起。2005年Tesseract由惠普開源,然后從2006年至今,由谷歌繼續開發。

Tesseract-Ocr并不是一個軟件,它是一個軟件包,包含了一個OCR引擎【libtesseract】和一個命令行程序 【tesseract】。Tesseract 4增加了一個基于OCR引擎的新神經網絡(LSTM),該引擎專注于行級識別,但仍然支持Tesseract 3的傳統Tesseract OCR引擎,該引擎通過識別字符模式來工作。

要啟用與Tesseract 3的兼容性,你需要使用Legacy OCR Engine模式(--oem 0)。它還需要支持傳統引擎的traineddata(訓練好的數據文件),這些文件可以從tessdata存儲庫的文件獲取。

Tesseract支持識別unicode(UTF-8),可以“開箱即用”識別100多種語言。

Tesseract支持多種輸出格式:純文本,hOCR(HTML),PDF,TSV。主分支還具有ALTO(XML)輸出的實驗支持。

⭐️⭐️⭐️ 具體介紹可以上tesseract-wiki查看。

在Java上使用創建項目,并引入Jar包

Maven

<!-- https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j --><dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.3.1</version></dependency>

Gradle

compile ’net.sourceforge.tess4j:tess4j:4.3.1’導入traineddata

traineddata是使用Tesseract-Ocr訓練好的數據文件,可以直接使用。這些文件你可以去tessdata存儲庫查找,也可以去谷歌搜索,當然了,你也可以自己訓練😂。

traineddata通常以*.traineddata命名,其中*指的是支持的語言類型。在這里你可以看到4.0.0版本支持的語言以及traineddata列表。

這次,我們選擇eng.traineddata進行測試。下載eng.traineddata放入/resources/traineddata目錄。

編寫測試代碼

初始化Tesseract引擎

public class TesseractTest { private ITesseract tesseract; @Before public void init() {tesseract = new Tesseract();System.out.println('tesseract init done...'); }}

實際上,上面的代碼是無法正常運行的,因為找不到指定語言版本的traineddata文件。

net.sourceforge.tess4j:tess4j:4.1.1提供的API并不好,在Tesseract構造函數中,沒有提供可選參數的構造器。

public class Tesseract implements ITesseract { // Tesseract使用的語言版本,用以選擇traineddata private String language = 'eng'; // traineddata目錄,里面放*.traineddata數據文件 private String datapath; // 省略其他代碼 ... public Tesseract() {try { // 默認從系統環境變量獲取traineddata目錄 datapath = System.getenv('TESSDATA_PREFIX');} catch (Exception e) { // ignore} finally { if (datapath == null) {datapath = './'; }} }/** * Sets language for OCR. * * @param language the language code, which follows ISO 639-3 standard. */ @Override public void setLanguage(String language) {this.language = language; }/** * Sets path to <code>tessdata</code>. * * @param datapath the tessdata path to set */ @Override public void setDatapath(String datapath) {this.datapath = datapath; }// 省略其他代碼 ...}

所以,我們可以選擇設置環境變量TESSDATA_PREFIX為數據目錄,或者通過Java編碼的方式來設置。

tesseract.setLanguage('eng'); // 默認就是eng,你可以選擇其他langtesseract.setDatapath(TesseractTest.class.getResource('/traineddata').getPath().substring(1));

OCR識別測試tesseract提供了一系列doOcr方法的重載,我們可以方便的進行OCR識別。

String doOCR(File imageFile) throws TesseractException;String doOCR(File imageFile, Rectangle rect) throws TesseractException;String doOCR(BufferedImage bi) throws TesseractException;String doOCR(BufferedImage bi, Rectangle rect) throws TesseractException;String doOCR(List<IIOImage> imageList, Rectangle rect) throws TesseractException;String doOCR(List<IIOImage> imageList, String filename, Rectangle rect) throws TesseractException;String doOCR(int xsize, int ysize, ByteBuffer buf, Rectangle rect, int bpp) throws TesseractException;String doOCR(int xsize, int ysize, ByteBuffer buf, String filename, Rectangle rect, int bpp) throws TesseractException;

可以看出,doOcr方法支持多種圖片識別方式,如圖片文件、多個圖片文件、圖片文件局部處理等等方式。

為了方便測試,我們選取最簡單的圖片文件方式測試。

圖片是個URL鏈接,如下所示

Java使用Tesseract-Ocr識別數字

@Testpublic void testOcr() throws IOException, TesseractException { BufferedImage image = ImageIO.read(new URL('http://static8.ziroom.com/phoenix/pc/images/price/aacd14fbc53a106c7f0f0d667535683as.png')); String ocr = tesseract.doOCR(image); System.out.println('ocr result : ' + ocr);}

控制臺輸出:

tesseract init done...ocr result : 2710386495

識別準確率,主要在于你選擇的訓練數據文件,我使用的是數據文件是這個,對于數字的準確率基本上是100%。

異常如果你遭遇Invalid memory access異常,這是由于找不到對應lang的*.traineddata文件,請修改language和datapath。

Invalid memory accessjava.lang.Error: Invalid memory accessat com.sun.jna.Native.invokePointer(Native Method)at com.sun.jna.Function.invokePointer(Function.java:470)at com.sun.jna.Function.invoke(Function.java:404)at com.sun.jna.Function.invoke(Function.java:315)at com.sun.jna.Library$Handler.invoke(Library.java:212)at com.sun.proxy.$Proxy9.TessBaseAPIGetUTF8Text(Unknown Source)at net.sourceforge.tess4j.Tesseract.getOCRText(Tesseract.java:495)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:321)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:293)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:274)at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:258) ...訓練工具

https://github.com/tesseract-ocr/tesseract/wiki/AddOns

訓練數據倉庫 tessdata_best:基于LSTM引擎的訓練數據,最佳最準確的 tessdata_fast:基于LSTM引擎的訓練數據,快速(精簡)版本 tessdata:支持雙引擎(LSTM和傳統引擎),但LSTM訓練數據不是最新的版本

推薦使用tessdata_best,雖然識別速度相對于tessdata_fast稍慢,但是準確率可以保證。

參考

tesseract-ocr-wiki

以上就是Java使用Tesseract-Ocr識別數字的詳細內容,更多關于Java 識別數字的資料請關注好吧啦網其它相關文章!

標簽: Java
相關文章:
主站蜘蛛池模板: QQ房产导航-免费收录优秀房地产网站_房地产信息网 | 水篦子|雨篦子|镀锌格栅雨水篦子|不锈钢排水篦子|地下车库水箅子—安平县云航丝网制品厂 | KBX-220倾斜开关|KBW-220P/L跑偏开关|拉绳开关|DHJY-I隔爆打滑开关|溜槽堵塞开关|欠速开关|声光报警器-山东卓信有限公司 | 企业彩铃制作_移动、联通、电信集团彩铃上传开通_彩铃定制_商务彩铃管理平台-集团彩铃网 | 烟台游艇培训,威海游艇培训-烟台市邮轮游艇行业协会 | 冷水机-工业冷水机-冷水机组-欧科隆品牌保障 | 刑事律师_深圳著名刑事辩护律师_王平聚【清华博士|刑法教授】 | 报警器_家用防盗报警器_烟雾报警器_燃气报警器_防盗报警系统厂家-深圳市刻锐智能科技有限公司 | 食品机械专用传感器-落料放大器-低价接近开关-菲德自控技术(天津)有限公司 | 液氮罐_液氮容器_自增压液氮罐-北京君方科仪科技发展有限公司 | 挤出熔体泵_高温熔体泵_熔体出料泵_郑州海科熔体泵有限公司 | 杭州营业执照代办-公司变更价格-许可证办理流程_杭州福道财务管理咨询有限公司 | 废水处理-废气处理-工业废水处理-工业废气处理工程-深圳丰绿环保废气处理公司 | 济南网站建设|济南建网站|济南网站建设公司【济南腾飞网络】【荐】 | 水轮机密封网 | 水轮机密封产品研发生产厂家| 校园文化空间设计-数字化|中医文化空间设计-党建|法治廉政主题文化空间施工-山东锐尚文化传播公司 | 多米诺-多米诺世界纪录团队-多米诺世界-多米诺团队培训-多米诺公关活动-多米诺创意广告-多米诺大型表演-多米诺专业赛事 | 上海办公室装修公司_办公室设计_直营办公装修-羚志悦装 | 深圳美安可自动化设备有限公司,喷码机,定制喷码机,二维码喷码机,深圳喷码机,纸箱喷码机,东莞喷码机 UV喷码机,日期喷码机,鸡蛋喷码机,管芯喷码机,管内壁喷码机,喷码机厂家 | 不锈钢反应釜,不锈钢反应釜厂家-价格-威海鑫泰化工机械有限公司 不干胶标签-不干胶贴纸-不干胶标签定制-不干胶标签印刷厂-弗雷曼纸业(苏州)有限公司 | 正压密封性测试仪-静态发色仪-导丝头柔软性测试仪-济南恒品机电技术有限公司 | 北京软件开发_软件开发公司_北京软件公司-北京宜天信达软件开发公司 | 长城人品牌官网 | 商秀—企业短视频代运营_抖音企业号托管 | 沈飞防静电地板__机房地板-深圳市沈飞防静电设备有限公司 | 留学生辅导网-在线课程论文辅导-留学生挂科申诉机构 | 混合气体腐蚀试验箱_盐雾/硫化氢/气体腐蚀试验箱厂家-北京中科博达 | 旅游规划_旅游策划_乡村旅游规划_景区规划设计_旅游规划设计公司-北京绿道联合旅游规划设计有限公司 | 口臭的治疗方法,口臭怎么办,怎么除口臭,口臭的原因-口臭治疗网 | 不锈钢散热器,冷却翅片管散热器厂家-无锡市烨晟化工装备科技有限公司 | 洛阳防爆合格证办理-洛阳防爆认证机构-洛阳申请国家防爆合格证-洛阳本安防爆认证代办-洛阳沪南抚防爆电气技术服务有限公司 | 呼末二氧化碳|ETCO2模块采样管_气体干燥管_气体过滤器-湖南纳雄医疗器械有限公司 | 薪动-人力资源公司-灵活用工薪资代发-费用结算-残保金优化-北京秒付科技有限公司 | lcd条形屏-液晶长条屏-户外广告屏-条形智能显示屏-深圳市条形智能电子有限公司 | 杭州翻译公司_驾照翻译_专业人工翻译-杭州以琳翻译有限公司官网 组织研磨机-高通量组织研磨仪-实验室多样品组织研磨机-东方天净 | 九爱图纸|机械CAD图纸下载交流中心 | 佛山商标注册_商标注册代理|专利注册申请_商标注册公司_鸿邦知识产权 | 福建珂朗雅装饰材料有限公司「官方网站」| 杭州公司变更法人-代理记账收费价格-公司注销代办_杭州福道财务管理咨询有限公司 | 酶联免疫分析仪-多管旋涡混合仪|混合器-莱普特科学仪器(北京)有限公司 | 北京宣传片拍摄_产品宣传片拍摄_宣传片制作公司-现像传媒 |