Tesseract.js 是一个基于 Tesseract OCR 引擎开源的 JavaScript 库,支持 100 多种语言(中文支持),支持自动文本定位和脚本检测,用于读取段落、单词和字符边界框的简单界面。既可以在浏览器中运行,也可以在带有NodeJS的服务器上运行。Tesseract.js 在开源社区获得大量开发者的喜赖,目前在Github上已经获得了32K Stars。
安装依赖
1、CDN通过 CDN 方式在 <script> 标签直接引入
<!-- v5 -->
<script src='https://cdn.jsdelivr.net/npm/tesseract.js@5/dist/tesseract.min.js'></script>
2、Node.js前提需要 Node.js v14 或更高版本通过 npm 使用 webpack,在 Node.js 上使用 npm/yarn 命令安
# For latest version
npm install tesseract.js
yarn add tesseract.js
# For old versions
npm install tesseract.js@3.0.3
yarn add tesseract.js@3.0.3
3、本地运行 Tesseract.js 通过git clone代码到本地,命令如下:
# First we clone the repository
git clone https://github.com/naptha/tesseract.js.git
cd tesseract.js
# Then we install the dependencies
npm install
# And finally we start the development server
npm start
启动成功之后,在浏览器打开,即可查看官方demo演示:http://localhost:3000/examples/browser/download-pdf.html
暂无评论内容