Tesseract.js 是基于 Tesseract OCR 引擎开源的 JavaScript 库,支持 100 多种语言,包括中文。它提供简单的界面用于自动文本定位和脚本检测,可用于读取段落、单词和字符边界框。该库可在浏览器和带有 Node.js 的服务器上运行,并在开源社区获得广泛支持,目前在 GitHub 上已获得超过 32K 星。
安装依赖:
通过 CDN: 通过 CDN 方式在 <script>
标签直接引入:
<code><em><!-- v5 --></em> <<strong>script</strong> src='https://cdn.jsdelivr.net/npm/tesseract.js@5/dist/tesseract.min.js'></<strong>script</strong>></code>
通过 Node.js: 前提需要 Node.js v14 或更高版本。使用 npm 或 yarn 安装:
<code><em># 最新版本</em> npm install tesseract.js yarn add tesseract.js <em># 旧版本</em> npm install tesseract.js@3.0.3 yarn add tesseract.js@3.0.3</code>
本地运行 Tesseract.js: 通过 git clone 代码到本地,并安装依赖,然后启动开发服务器:
<code><em># 克隆仓库</em> git clone https://github.com/naptha/tesseract.js.git cd tesseract.js <em># 安装依赖</em> npm install <em># 启动服务器</em> npm start</code>
快速体验: 提供一张英文图片和英文 OCR 识别结果图片,同时支持中文识别。识别准确度非常高,还支持导出 PDF 功能。
关于 Tesseract: Tesseract 是惠普布里斯托实验室在 1985 到 1995 年间开发的一个开源 OCR 引擎,曾在 1995 UNLV 精确度测试中名列前茅。然而,自 1996 年后停止了开发。2005 年,惠普将其开源,随后由 Google 进行改进、修复 Bug 和优化工作。
链接:
- GitHub 开源代码:https://github.com/naptha/tesseract.js
- 官网 demo 演示地址:https://tesseract.projectnaptha.com/
您可以通过这些链接了解更多关于 Tesseract.js 的信息。
© 版权声明
THE END
暂无评论内容