简介
@futpib/tika-server-client 是一个基于 Node.js 的 npm 包,可用于通过 REST API 与 Apache Tika 服务器进行交互。Apache Tika 是一个文档类型检测和文本提取工具,支持多种格式的文件。使用 @futpib/tika-server-client,可以轻松地将文档上传到 Tika 服务器并获得文本提取结果。
安装
通过 npm,可以很容易地安装 @futpib/tika-server-client:
npm i @futpib/tika-server-client
使用
初始化
在使用 @futpib/tika-server-client 之前,需要进行初始化,指定 Tika 服务器的地址和端口号:
const TikaServerClient = require('@futpib/tika-server-client'); const tika = new TikaServerClient({ host: 'localhost', port: 9998, });
检测文档类型
使用 detectType 方法可以检测文档的类型,支持多种格式的文档:
tika.detectType('./example.docx').then((result) => { console.log(result); }).catch((err) => { console.error(err); });
提取文本
使用 getText 方法可以提取文档中的文本:
tika.getText('./example.docx').then((result) => { console.log(result); }).catch((err) => { console.error(err); });
获取元数据
使用 getMetadata 方法可以获取文档的元数据,包括标题、作者、创建时间等等:
tika.getMetadata('./example.docx').then((result) => { console.log(result); }).catch((err) => { console.error(err); });
示例代码
-- -------------------- ---- ------- ----- ---------------- - -------------------------------------- ----- ---- - --- ------------------ ----- ------------ ----- ----- --- ----------------------------------------------- -- - --------------------- ------- -------- -------------- -- - ------------------- --- -------------------------------------------- -- - --------------------- ------- -------- -------------- -- - ------------------- --- ------------------------------------------------ -- - --------------------- ----------- -------- -------------- -- - ------------------- ---
结语
@futpib/tika-server-client 封装了 Apache Tika 的 REST API,为文本提取和元数据获取提供了便利。在前端开发中,常常需要处理各种格式的文档,使用 @futpib/tika-server-client 可以更加高效地实现这一目标。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/600562d281e8991b448e01de