当前位置: 首页 > news >正文

简单使用tesseract-ocr提取图片中的文字

访问Introduction | tessdoc,下载Windows版本的安装包和其他语言的训练数据

安装包下载地址:Home · UB-Mannheim/tesseract Wiki · GitHub

其他语言的训练数据下载地址:Traineddata Files for Version 4.00 + | tessdoc

1、下载Tesseract-OCR软件
下载地址:https://github.com/UB-Mannheim/tesseract/releases/download/v5.4.0.20240606/tesseract-ocr-w64-setup-5.4.0.20240606.exe2、安装Tesseract-OCR软件3、添加环境变量
在环境变量的path变量增加Tesseract-OCR安装路径4、下载中文简体语言训练数据(chi_sim)
下载地址:https://github.com/tesseract-ocr/tessdata/raw/4.00/chi_sim.traineddata5、把下载好的chi_sim.traineddata文件放在 Tesseract-OCR安装目录下的tessdata目录
说明:Tesseract-OCR安装目录下的tessdata目录默认已有eng.traineddata6.1、测试:提取图片中的英文
截图内容:https://tesseract-ocr.github.io/tessdoc/Installation.html
执行命令:tesseract test1.png test1-output
输出文件:test1-output.txt6.2、测试:提取图片中的中文
截图内容:https://alk.12348.gov.cn/Detail?dbID=75&dbName=CWZC&sysID=152
执行命令:tesseract test2.png test2-output -l chi_sim
输出文件:test2-output.txt7、说明
使用Tesseract-OCR提取的内容不一定准确

http://www.mrgr.cn/news/34242.html

相关文章:

  • 【CICD】CICD 持续集成与持续交付在测试中的应用
  • node全局对象
  • 将Docker中nginx静态资源目录映射到宿主机的某个目录及配置文件映射到宿主机
  • 基于表格滚动截屏(表格全部展开,没有滚动条)
  • 云原生学习
  • 开源竞争-利用kimi编程助手搭建小程序(11)
  • angular封装好的组件的收到原生输入框的change事件
  • 可编辑PPT | 能源企业数字化框架、数字化运营及数字化平台建设方案
  • 石头剪刀布手势识别系统源码分享
  • 图论(dfs深搜系列)9.23
  • 甩锅笔记:好好的服务端应用突然起不来,经定位是无法访问外网了?测试又说没改网络配置,该如何定位?
  • 基于Ambari搭建hadoop生态圈+Centos7安装教程V2.0优化版(本篇博客写的较为详细,可能比较多,请耐心看)
  • 【BetterBench博士】2024年华为杯E题:高速公路应急车道紧急启用模型 Python代码实现
  • 最适配达梦、人大金仓的sql工具是什么?
  • HTTP代理域名解析的先后顺序:深入解析
  • 共享内存详解
  • 51WORLD打造土耳其奥斯曼尼耶城市大脑,助力中东城市智慧化转型
  • 深入解析:从URL到页面渲染的完整过程与性能优化【页面渲染、重排、重汇】
  • 仓颉编程语言4,遇到BUG求助
  • 浅谈人工智能技术,对社会经济变革的思考
  • Linux(麒麟系统)多显示器屏幕录制
  • 软件测试实验室如何利用GB/T25000标准建立测试技术体系
  • 828华为云征文 | 云服务器Flexus X实例,Docker集成搭建NGINX
  • 超详细超实用!!!AI编程之cursor编写官网新增轮播效果(三)
  • 【二分算法】模板总结
  • 系统分析师12:系统规划