关于：thulacの话题！

张3 发布于 2026-05-25
收藏 thulac

在个性化分词评估中，我们采用了SIGHAN 2005的评估标准，以词为粒度，计算准确率和召回率。以“夕小瑶的卖萌屋”为例，LAC训练模型的测试结果显示出显著优势。对比LAC、pkuseg、thulac等模型在各数据集上的表现，LAC的F1值普遍高于其他模型2-3个百分点，尤其是在医疗领域，效果远优于COLING2018提出的AMTTL.....

4.3 NLP_基础:文本表示、分词、提取关键词、语言模型、注意力机制_百度...

张3 发布于 2026-05-25
收藏 thulac

目前，常用的中文分词工具有中科院计算所的NLPIR、ansj分词器、哈工大的LTP、清华大学THULAC、斯坦福分词器、HanLP、结巴分词、KCWS、ZPar和IKAnalyzer等。这些工具各有特点，如哈工大的LTP提供接口，支持特定需求；THULAC支持多语言；HanLP开源且有人维护，基于人民日报语料训练；结巴分词采用动态规划和H...

有哪些比较好的中文分词方案?

张3 发布于 2026-05-25
收藏 thulac

本篇文章对比测试了六大中文分词工具：哈工大LTP、中科院计算所NLPIR、清华大学THULAC、jieba、FoolNLTK、HanLP，旨在提供详细的性能分析与比较。以下为具体分析内容：一、安装与调用 - **jieba**：作为Python中功能强大的中文分词组件，适合广泛的应用场景。- **THULAC**：来自清华大学，是一个高效...