nodejieba 是一个中文分词的 npm 包,它使用 C++ 实现了 jieba 中文分词算法,并提供了 Node.js 的绑定。
安装
在命令行中输入以下命令进行安装:
npm install nodejieba
使用
首先,需要引入 nodejieba 模块:
const nodejieba = require("nodejieba");
分词
调用 nodejieba.cut
方法可以对一段文本进行分词:
const text = "我爱北京天安门"; const result = nodejieba.cut(text); console.log(result); // ["我", "爱", "北京", "天安门"]
关键词提取
调用 nodejieba.extract
方法可以从一段文本中提取出指定数量的关键词:
const text = "我爱北京天安门"; const topN = 2; const result = nodejieba.extract(text, topN); console.log(result); // [{ word: '北京', weight: 1.582988704618357 }, { word: '天安门', weight: 1.582988704618357 }]
添加词典
nodejieba 支持添加自定义的词典。调用 nodejieba.load
方法可以加载自定义词典:
nodejieba.load({ userDict: "./user.dict.utf8", });
其中 user.dict.utf8
是自定义词典文件的路径。
调整词典
调用 nodejieba.insertWord
方法可以向词典中添加新词,调用 nodejieba.deleteWord
方法可以删除指定的词语。
总结
通过本文的介绍,我们了解了如何使用 nodejieba 包进行中文分词和关键词提取,并学习了如何添加自定义词典和调整词典。希望本文对大家学习并使用 nodejieba 有所帮助。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/54460