博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
jieba.NET与Lucene.Net的集成
阅读量:6921 次
发布时间:2019-06-27

本文共 3716 字,大约阅读时间需要 12 分钟。

首先声明:我对Lucene.Net并不熟悉,但搜索确实是分词的一个重要应用,所以这里还是尝试将两者集成起来,也许对你有一参考。

看到了两个中文分词与Lucene.Net的集成项目:和,参考其中的代码实现了最简单的集成:。下面给出简单的介绍。

1、JiebaTokenizer

主要的集成点是自定义一个Tokenizer的子类,此时必须要实现它的抽象方法IncrementToken,该方法用于对文本流中的文本生成的token进行遍历,这正是分词组件发挥作用的地方。

public override bool IncrementToken(){    ClearAttributes();    position++;    if (position < tokens.Count)    {        var token = tokens[position];        termAtt.SetTermBuffer(token.Word);        offsetAtt.SetOffset(token.StartIndex, token.EndIndex);        typeAtt.Type = "Jieba";        return true;    }    End();    return false;}

termAtt和offsetAtt所在的两行代码需要用到每一个token的词本身、起始索引和终止索引,而这三个值恰好是JiebaSegmenter.Tokenize方法所实现的,所以只要在初始化JiebaTokenizer时使用:

tokens = segmenter.Tokenize(text, TokenizerMode.Search).ToList();

就可以得到所有分词所得的token,另外TokenizerMode.Search参数使得Tokenize方法的结果中包含更全面的分词结果,比如“语言学家”会得到四个token,即“[语言, (0, 2)], [学家, (2, 4)], [语言学, (0, 3)], [语言学家, (0, 4)]”,这在创建索引和搜索时都很有帮助。

2、JiebaAnalyzer

Tokenizer类实现分词,而添加索引和搜索需要的是Analyzer,JiebaAnalyzer只要调用JiebaTokenizer即可。

public override TokenStream TokenStream(string fieldName, TextReader reader){    var seg = new JiebaSegmenter();    TokenStream result = new JiebaTokenizer(seg, reader);    // This filter is necessary, because the parser converts the queries to lower case.    result = new LowerCaseFilter(result);    result = new StopFilter(true, result, StopWords);    return result;}

除了JiebaTokenizer,JiebaAnalyzer还会用到LowerCaseFilterStopFilter。前者可将索引和搜索的内容正则化,忽略大小写,后者则过滤掉停用词。这里使用的停用词列表合并了NLTK的英文停用词和哈工大的中文停用词。

3、创建索引和搜索

创建索引时,IndexWriter要使用JiebaAnalyzer的实例:

var analyzer = new JiebaAnalyzer();using (var writer = new IndexWriter(Directory, analyzer, IndexWriter.MaxFieldLength.UNLIMITED)){    // replaces older entry if any    foreach (var sd in data)    {        AddToLuceneIndex(sd, writer);    }    analyzer.Close();}

搜索的时候,先将用户的输入分词:

private static string GetKeyWordsSplitBySpace(string keywords, JiebaTokenizer tokenizer){    var result = new StringBuilder();    var words = tokenizer.Tokenize(keywords);    foreach (var word in words)    {        if (string.IsNullOrWhiteSpace(word.Word))        {            continue;        }        result.AppendFormat("{0} ", word.Word);    }    return result.ToString().Trim();}

比如如果用户输入的是“语言学家”,那么该函数的返回值是“语言 学家 语言学 语言学家”,为后面的搜索做好准备(另外,我们还可以为每个词加上一个*,这样只要部分匹配就可以搜到结果)。最后的搜索实现是:

private static IEnumerable
SearchQuery(string searchQuery, string searchField = ""){ if (string.IsNullOrEmpty(searchQuery.Replace("*", "").Replace("?", ""))) { return new List
(); } using (var searcher = new IndexSearcher(Directory, false)) { var hitsLimit = 1000; //var analyzer = new StandardAnalyzer(Version.LUCENE_30); var analyzer = GetAnalyzer(); if (!string.IsNullOrEmpty(searchField)) { var parser = new QueryParser(Version.LUCENE_30, searchField, analyzer); var query = ParseQuery(searchQuery, parser); var hits = searcher.Search(query, hitsLimit).ScoreDocs; var results = MapLuceneToDataList(hits, searcher); analyzer.Dispose(); return results; } else { var parser = new MultiFieldQueryParser(Version.LUCENE_30, new[] { "Id", "Title", "Content" }, analyzer); var query = ParseQuery(searchQuery, parser); var hits = searcher.Search(query, null, hitsLimit, Sort.RELEVANCE).ScoreDocs; var results = MapLuceneToDataList(hits, searcher); analyzer.Close(); return results; } }}

这里的searchField参数可以指定特定字段进行搜索,如果为空,则对所有字段进行搜索。至此实现了最基本的集成。

JiebaTokenizer、JiebaAnalyzer的实现和示例代码都可在找到。

4、Luke.Net

可以查看Lucene.Net生成的索引内容,这在开发和调试Lucene的时候会特别有帮助。

 

参考:

转载地址:http://cdkjl.baihongyu.com/

你可能感兴趣的文章
Docker启动容器时的port公开方式,破除一些含糊的地方
查看>>
mongodb增量备份脚本与原理
查看>>
程序员如何快速从“码畜”到“中级水平”需要的10个秘诀
查看>>
常见系统变量
查看>>
java连接mongodb报:couldn't connect to [/127.0.0.1:...
查看>>
Windows7中IIS简单安装与配置(详细图解)
查看>>
pyhon 2.7 安装matplotlib
查看>>
centos7防火墙开放端口
查看>>
安卓adt 使用proguard打混淆包具体步骤【详细】
查看>>
Android平台设计规范
查看>>
oracle错误分析
查看>>
淘宝的OceanBase
查看>>
hbase安装
查看>>
解决Re-download dependencies and sync project
查看>>
Android隐藏输入法软键盘的注意事项
查看>>
Spring框架设计理念与设计模式
查看>>
Windows下MySQL数据库备份脚本(二)
查看>>
算法导论-归并排序
查看>>
用Javascript判断图片是否存在,不存在则显示默认图片的代码
查看>>
Android签名问题,jarsigner的问题
查看>>