Tesseract.js:超过32k+星的纯JS开源OCR图像识别库,支持100+语言

图片[1]-Tesseract.js:超过32k+星的纯JS开源OCR图像识别库,支持100+语言-山海云端论坛

Tesseract.js 是基于 Tesseract OCR 引擎开源的 JavaScript 库,支持 100 多种语言,包括中文。它提供简单的界面用于自动文本定位和脚本检测,可用于读取段落、单词和字符边界框。该库可在浏览器和带有 Node.js 的服务器上运行,并在开源社区获得广泛支持,目前在 GitHub 上已获得超过 32K 星。

安装依赖:

通过 CDN: 通过 CDN 方式在 <script> 标签直接引入:

<code><em><!-- v5 --></em> <<strong>script</strong> src='https://cdn.jsdelivr.net/npm/tesseract.js@5/dist/tesseract.min.js'></<strong>script</strong>></code>

通过 Node.js: 前提需要 Node.js v14 或更高版本。使用 npm 或 yarn 安装:

<code><em># 最新版本</em> npm install tesseract.js yarn add tesseract.js <em># 旧版本</em> npm install tesseract.js@3.0.3 yarn add tesseract.js@3.0.3</code>

本地运行 Tesseract.js: 通过 git clone 代码到本地,并安装依赖,然后启动开发服务器:

<code><em># 克隆仓库</em> git clone https://github.com/naptha/tesseract.js.git cd tesseract.js <em># 安装依赖</em> npm install <em># 启动服务器</em> npm start</code>

快速体验: 提供一张英文图片和英文 OCR 识别结果图片,同时支持中文识别。识别准确度非常高,还支持导出 PDF 功能。

图片[2]-Tesseract.js:超过32k+星的纯JS开源OCR图像识别库,支持100+语言-山海云端论坛
图片[3]-Tesseract.js:超过32k+星的纯JS开源OCR图像识别库,支持100+语言-山海云端论坛
图片[4]-Tesseract.js:超过32k+星的纯JS开源OCR图像识别库,支持100+语言-山海云端论坛
图片[5]-Tesseract.js:超过32k+星的纯JS开源OCR图像识别库,支持100+语言-山海云端论坛

关于 Tesseract: Tesseract 是惠普布里斯托实验室在 1985 到 1995 年间开发的一个开源 OCR 引擎,曾在 1995 UNLV 精确度测试中名列前茅。然而,自 1996 年后停止了开发。2005 年,惠普将其开源,随后由 Google 进行改进、修复 Bug 和优化工作。

链接:

  • GitHub 开源代码:https://github.com/naptha/tesseract.js
  • 官网 demo 演示地址:https://tesseract.projectnaptha.com/

您可以通过这些链接了解更多关于 Tesseract.js 的信息。

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容