原创

lucene全文检索的概念

1.数据分类

    结构化数据:有固定类型或者有固定长度的数据

          例如:数据库中的数据(oracle,mysql等),windows中的数据(元数据)

    结构化数据的搜索方法:

          数据库中数据通过sql语句可以搜索

          元数据(windows中的通过windows提供的搜索栏进行搜索)


    非结构化数据:没有固定类型和固定长度的数据

          例如:word文档中的数据,邮件中的数据

     非结构化数据的搜索方法:

         word文档使用ctrl+F来搜索

         此方法叫顺序扫描法:ctrl+F中是使用顺序扫描法,拿到搜索的关键字,去文档中逐一匹配,知道找到和关键字一直的内容为止。

             优点:如果文档中存在要找的关键字,就一定能找到想要的内容

             缺点:慢,效率低

        全文检索算法(又名倒排索引算法): 

             将文件中的内容提取出来,将文字拆封成一个一个的词(分词),将这些词组成索引(类似字典中的目录),搜索的时候先搜索索引,通过索引找到文档,这个过程就叫做全文检索

        分词:去掉停用词(a,an,the,的,得,啊,嗯,呵呵),因为搜索的时候搜索这些词没有意义,将ju

正文到此结束
本文目录