1. 简介
textractor-wrapper
是一个开源的 npm 包,用于提取 PDF、Word、Excel、PowerPoint、HTML 等文件中的文本,并根据文件类型进行不同的解析。
该包是基于 textract
这个包的封装,对其进行了一些优化和拓展。
2. 安装
使用 npm 安装 textractor-wrapper
十分简单:
npm install textractor-wrapper
3. 使用
textractor-wrapper
提供了 extract
方法,可以用来提取文件中的文本。
-- -------------------- ---- ------- ----- ---------- - ------------------------------ ---------------------------- -------- ----- ----- -- - -- ----- - ------------------- - ---- - ------------------ - ---
filepath
: 待提取文本的文件路径,必填项。options
: 选填项。包括两个关键属性:preserveLineBreaks
: 是否保留文本中的行末换行符,类型为布尔值,默认为false
。type
: 待提取文本的文件类型,类型为字符串。如果不填该属性,将根据文件扩展名自动判断文本类型。当前支持的文本类型包括pdf
、docx
、xlsx
、pptx
、html
。
callback
: 回调函数,必填项。当文本提取成功时,将返回文本内容,否则返回错误信息。
4. 示例
这里提供一个使用示例:
-- -------------------- ---- ------- ----- ---------- - ------------------------------ ----- -------- - ---------------------- ----- ------- - - ------------------- ----- ----- ------ -- ---------------------------- -------- ----- ----- -- - -- ----- - ------------------- - ---- - -------------------------------- - ---
在上面的示例中,我们提取了一个 PDF 文件中的文本,并保留了其中的行末换行符。
5. 总结
textractor-wrapper
提供了一个简单易用的方法,用于从多种文件类型中提取文本。通过 options
参数,我们可以灵活地控制文本提取的方式。无论是提取电子书的内容,还是从 PDF 报告中摘取摘要,都可以借助该包轻松完成。
如果您对该包有兴趣,可以访问 textractor-wrapper 了解更多信息,并参与到它的开源项目中。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/6006733e890c4f72775835d9