1.1 solr
简单介绍一下solr? Solr是一个独立的企业级搜索应用服务器,它对外提供类似于web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过http Get操作提出查找请求,并得到XML格式的返回结果。 特点:Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的 功能管理界面,是一款非常优秀的全文搜索引擎。 工作方式:文档通过Http利用XML加到一个搜索集合中。查询 该集合也是通过http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema 来定义字段,类型和设置文本分析,提供基于Web的管理界面等。 2.Solr怎么设置搜索结果排名靠前? 可以设置文档中域的boost值,boost值越高,计算出来的相关度得分就越高,排名也就越靠前。此方法可以把热点产品或者推广商品的排名提高。 3.solr中lk分词器原理是什么? IK分词器的分词原理是词典分词。先在内存中初始化一个词典,然后在分词过程中挨个读取字符,和字典中的字符相匹配,把文档中的所有词语拆分出来的过程。 1.2 搜索介绍 1.2.1 传统搜索实现方案 说明:根据用户输入的搜索 关键词(java),应用服务器通过SQL语句查询数据库,数据库服务器把查询结果响应给应用服务器,应用服务器把查询结果响应给用户。 特点:用户量大,数据量大,数据库服务器的压力很大,查询速度慢!!! 1.2.2 Lucene实现方案 说明:根据用户输入的搜索 关键词(java),应用服务器通过Lucene的API搜索索引库,索引库把搜索结果响应到应用服务器,应用服务器再把搜索结果响应给用户。 特点:解决用户量大,数据量很大,系统 对搜索速度要求高的业务需求(实时查询)。 1.3 数据查询方法 1.3.1 顺序扫描法 举个例子:比如我们有大量的文件,文件编号从A,B,C。。。。。。 需求:要找出文件内容中包含有java的所有文件 需求实现:从A文件开始查找,再找B文件,然后再找C文件,以此类推。。。。。 特点:如果文件数量很多,查找速度慢!!! 1.3.2 倒排索引法 举个例子:使用新华字典查找汉字,先找到汉字的偏旁部首,再根据偏旁部首对应的目录(索引)找到目标汉字。 以lucene为例建立倒排索引: 文件一(编号0):we like java java java 文件二(编号1):we like lucene lucene lucene 说明: 建立倒排索引,就是建立词语与文件的对应关系(词语在什么文件出现,出现了几次,在什么位置出现)。 搜索的时候,直接根据搜索关键词(java),在倒排序中找到目标内容。 1.4 搜索技术应用场景 单机软件搜索(idea) 站内搜索(京东、淘宝)// The Vue build version to load with the `import` command
// (runtime-only or standalone) has been set in webpack.base.conf with an alias.import Vue from 'vue'import router from './router'//布局模板页import Layout from "www.yigouyule2.cn ./components/layout/Layout";//第三方插件import $ from 'jquery';import '.www.dasheng178.com./node_modules/bootstrap/dist/css/bootstrap.min.css'import '../node_modules/font-awesome/css/font-awesome.min.css'import '../node_modules/ www.xycheng178.com ionicons/dist/css/ionicons.min.css'import 'www.mcyllpt.com../static/css/index.css';import 'www.michenggw.com/../node_modules/bootstrap/dist/js/bootstrap.min'
Vue.config.productionTip = false
/* eslint-disable no-new */
new Vue({ el: '#app', router, components: { Layout }, template: '<Layout/>'})复制代码index.html 配置body样式<body class="hold-transition skin-blue sidebar-mini">
垂直搜索(限定行业,比如教育,医疗搜索) 平台搜索(百度,360,搜狗) 2. Lucene介绍 2.1 Lucene是什么 Lucene是apache软件基金会下的一个子项目。是一个成熟、免费、开放源代码的全文检索引擎工具包。提供了一套简单易用的API,方便在目标系统中实现全文检索功能。目前已经有很多应用系统的搜索功能是基于lucene来实现。比如eclipse帮助系统的搜索功能。 Lucene能够为文本类型的数据建立索引,只需要把数据转换成文本格式,lucene就可以对文档进行索引和搜索。比如常见的word文档、html文档、pdf文档。首先将文档内容转换成文本格式,交给lucene进行索引,把建立好的索引保存在硬盘或者内存中。然后根据用户输入的查询条件,在索引文件中查找,返回查询结果给用户。 2.2 全文检索是什么 索引流程:计算机通过索引程序扫描文件中的每一个词语,建立词语与文件的对应关系。 检索流程:计算机通过检索程序,根据搜索关键词,在索引库查找目标内容。 2.3 Lucene与搜索引擎的区别 Lucene是一个全文检索引擎工具包,相当于汽车的发动机;搜索引擎基于全文检索实现,是一个可以独立运行的软件产品,相当于汽车。 2.4 Lucene官方网站 http://lucene.apache.org/ 3.全文检索流程介绍 3.1 索引和检索流程图 3.2 索引流程详细介绍 3.2.1 原始数据 保存在关系数据库中的业务数据。 保存在文件中的数据。 网络上的网页文件数据。 3.2.2 采集数据 信息采集的开源软件:Solr(http://lucene.apache.org/solr) ,solr是Apache的一个子项目,支持从关系数据库、xml文档中提取原始数据。 Nutch(http://lucene.apache.org/nutch),Nutch是Apache的一个子项目,包括大规模爬虫工具,能够抓取和分辨web网站数据。 jsoup(http://jsoup.org/),jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可以通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 通过JDBC操作获取到关系数据库中的业务数据。 通过IO流获取文件上的数据。 通过爬虫(网络蜘蛛)程序获取网络上的网页数据。 3.2.3 建立文档对象 说明:文档对象(Document),一个文档对象 包含有多个域(field)。一个文档对象就相当于关系数据库表中的一条记录,一个域就相当于一个字段。 结构化数据:长度固定,格式固定。 非结构化数据:长度不固定,格式不固定(文档对象就是非结构化数据) 3.2.4 分析文档对象 把原始数据,转换成文档对象之后,使用分析器(分词器)把文档域中的数据切分成一格一格词语。为后续建立索引做准备。 3.2.5 建立索引 建立词语与文档的对应关系,词语在什么文档出现,出现了几次,在什么位置出现(倒排索引)。并且保存到索引库。 3.3 检索流程详细介绍 3.3.1 用户 用户可以是自然人,也可以是程序。 3.3.2 用户查询 用户在搜索入口界面,输入搜索关键词,执行搜索。 3.3.3 建立查询对象 说明:根据用户输入的搜索关键词,使用分析器分词以后,建立查询对象(Query),Query对象会生成具体的查询语法。bookName:java,表示搜索图书名称域中包含有java的图书。 3.3.4 执行搜索 根据查询对象(Query),和Query生成的语法,在索引库中查询索引内容。 3.3.5 返回查询结果 提供一个搜索结果页面,把搜索结果友好的展示给用户(搜索关键词是高亮显示,搜索结果有排序)。