更新時間:2020年04月10日14時17分 來源:傳智播客 瀏覽次數(shù):
ElasticSearch 是一個高可用開源全文檢索和分析組件。提供存儲服務(wù),搜索服務(wù),大數(shù)據(jù)準(zhǔn)實(shí)時分析等。一般用于提供一些提供復(fù)雜搜索的應(yīng)用。
ElasticSearch 提供了一套基于restful風(fēng)格的全文檢索服務(wù)組件。前身是compass,直到2010被一家公司接管進(jìn)行維護(hù),開始商業(yè)化,并提供了ElasticSearch 一些相關(guān)的產(chǎn)品,包括大家比較熟悉的 kibana、logstash 以及 ElasticSearch 的一些組件,比如 安全組件shield 。當(dāng)前最新的ElasticSearch 版本為 5.1.1 ,比較應(yīng)用廣泛的為 2.X,直到 2016年12月推出了5.x 版本,將版本號調(diào)為 5.X 。這是為了和 kibana 和 logstash 等產(chǎn)品版本號進(jìn)行統(tǒng)一 ElasticSearch 。我們將從以下幾個問題快速了解一些ElasticSearch索引服務(wù)器。推薦了解傳智播客Java培訓(xùn)課程。
一、ES是如何產(chǎn)生背景
1、大規(guī)模數(shù)據(jù)如何檢索?
當(dāng)系統(tǒng)數(shù)據(jù)量上了10億、100億條的時候,我們在做系統(tǒng)架構(gòu)的時候通常會從以下角度去考慮問題:
1)用什么數(shù)據(jù)庫好?(mysql、sybase、oracle、達(dá)夢、神通、mongodb、hbase…)
2)如何解決單點(diǎn)故障; (lvs、F5、A10、Zookeep、MQ)
3)如何保證數(shù)據(jù)安全性;(熱備、冷備、異地多活)
4)如何解決檢索難題;(數(shù)據(jù)庫代理中間件:mysql-proxy、Cobar、MaxScale等;)
5)如何解決統(tǒng)計分析問題;(離線、近實(shí)時)
2、傳統(tǒng)數(shù)據(jù)庫的應(yīng)對解決方案
對于關(guān)系型數(shù)據(jù),我們通常采用以下或類似架構(gòu)去解決查詢瓶頸和寫入瓶頸:
1)通過主從備份解決數(shù)據(jù)安全性問題;
2)通過數(shù)據(jù)庫代理中間件心跳監(jiān)測,解決單點(diǎn)故障問題;
3)通過代理中間件將查詢語句分發(fā)到各個slave節(jié)點(diǎn)進(jìn)行查詢,并匯總結(jié)果
3、非關(guān)系型數(shù)據(jù)庫的解決方案
對于Nosql數(shù)據(jù)庫,基本原理類似:
1)通過副本備份保證數(shù)據(jù)安全性;
2)通過節(jié)點(diǎn)競選機(jī)制解決單點(diǎn)問題;
3)先從配置庫檢索分片信息,然后將請求分發(fā)到各個節(jié)點(diǎn),最后由路由節(jié)點(diǎn)合并匯總結(jié)果
4、另辟蹊徑完全把數(shù)據(jù)放入內(nèi)存怎么樣?
我們知道,完全把數(shù)據(jù)放在內(nèi)存中是不可靠的,實(shí)際上也不太現(xiàn)實(shí),當(dāng)我們的數(shù)據(jù)達(dá)到PB級別時,按照每個節(jié)點(diǎn) 96G內(nèi)存計算,在內(nèi)存完全裝滿的數(shù)據(jù)情況下,我們需要的機(jī)器是:1PB=1024T=1048576G 節(jié)點(diǎn)數(shù) =1048576/96=10922個 實(shí)際上,考慮到數(shù)據(jù)備份,節(jié)點(diǎn)數(shù)往往在2.5萬臺左右。成本巨大決定了其不現(xiàn)實(shí)!
從前面討論我們了解到,把數(shù)據(jù)放在內(nèi)存也好,不放在內(nèi)存也好,都不能完完全全解決問題。 全部放在內(nèi)存速度問題是解決了,但成本問題上來了。 為解決以上問題,從源頭著手分析,通常會從以下方式來尋找方法:
1、存儲數(shù)據(jù)時按有序存儲;
2、將數(shù)據(jù)和索引分離;
3、壓縮數(shù)據(jù); 這就引出了Elasticsearch
二、ES基礎(chǔ)知識
1、ES主要解決問題
1)檢索相關(guān)數(shù)據(jù);
2)返回統(tǒng)計結(jié)果;
3)速度要快;
2、Lucene與ES關(guān)系
1)Lucene只是一個庫。想要使用它,你必須使用Java來作為開發(fā)語言并將其直接集成到你的應(yīng)用中,更糟糕的是,Lucene非常復(fù)雜,你需要深入了解檢索的相關(guān)知識來理解它是如何工作的。
2)Elasticsearch也使用Java開發(fā)并使用Lucene作為其核心來實(shí)現(xiàn)所有索引和搜索的功能,但是它的目的是通過簡單的RESTful API來隱藏Lucene的復(fù)雜性,從而讓全文搜索變得簡單。
3、ES工作原理
當(dāng)ElasticSearch的節(jié)點(diǎn)啟動后,它會利用多播(multicast)(或者單播,如果用戶更改了配置)尋找集群中的其它節(jié)點(diǎn),并與之建立連接。這個過程如下圖所示:
4、ES的基本概念
1)近實(shí)時查詢(Near RealTime)
Elasticsearch 是一個能提供近實(shí)時查詢的搜索服務(wù)引擎,這意味著從索引文檔到真正可搜索之間會有一個輕微的延遲(大概在一秒內(nèi))。
2)節(jié)點(diǎn)和集群
節(jié)點(diǎn)(node)是一個運(yùn)行著的 Elasticsearch 實(shí)例,你可以認(rèn)為是單個服務(wù)器。集群(cluster)是一個或多個節(jié)點(diǎn)的集合,他們協(xié)同工作,共享數(shù)據(jù)并提供故障轉(zhuǎn)移和擴(kuò)展功能。集群由唯一名稱標(biāo)識,如 .NET Core 中的環(huán)境名稱,推薦在不同的環(huán)境中使用諸如
Development,Production 之類的名稱部署開發(fā)。其實(shí)節(jié)點(diǎn)和集群就是 web 開發(fā)中的常見概念而已,大家注意區(qū)分即可。
3)文檔
文檔是可索引信息的基本單元,以JSON表示。你可以用其來定義單個產(chǎn)品信息或是員工信息。我們可以把文檔理解為數(shù)據(jù)庫文檔中的行列數(shù)據(jù)。在索引/類型中,您可以存儲任意數(shù)量的文檔。文檔有幾個共同不可缺的屬性,分別為 _index, _type, _id, 針對特定一個或一類文檔進(jìn)行操作時,必須指定這些屬性。 最后要提醒大家的是,雖然文檔物理上是駐留在索引中,但實(shí)際上文檔必須索引/分配給索引中的類型。
4)索引
索引是具有某些相似特征的文檔的集合,它和數(shù)據(jù)庫中的索引概念并不十分相同。我們可以把索引理解為數(shù)據(jù)庫文檔中的數(shù)據(jù)庫。事實(shí)上,我們的數(shù)據(jù)被存儲和索引在分片(shards)中,索引只是一個把一個或多個分片分組在一起的邏輯空間。然而,這只是一些內(nèi)部細(xì)節(jié)——我們的程序完全不用關(guān)心分片。
5)類型
在索引中,我們可以定義一個或多個類型。類型是索引的邏輯類別/分區(qū),其語義完全由開發(fā)者決定。通常,為具有一組公共字段的文檔定義類型。例如,假設(shè)開發(fā)者運(yùn)行博客平臺并將所有數(shù)據(jù)存儲在一個索引中。在此索引中,我們可以為用戶數(shù)據(jù)定義類型,為博客數(shù)據(jù)定義另一種類型,并為注釋數(shù)據(jù)定義另一種類型。我們可以把索引理解成數(shù)據(jù)庫文檔中的表。
6)分片和復(fù)制理
論上,索引可以存儲盡可能多的數(shù)據(jù),但是這種情況下性能往往不太樂觀,或者常見的磁盤容量限制也不能允許。所以 Elasticsearch 提供了類似于 MongoDB 中的分片功能,該功能能將索引細(xì)分為多個分片。每個分片本身是一個功能完全和獨(dú)立的“索引”,可以托管在集群中的任何節(jié)點(diǎn)上。
同樣的,有分片技術(shù)來處理數(shù)據(jù)量增長快速的問題,就意味著需要復(fù)制技術(shù)來應(yīng)對這種過程中(其實(shí)不只是該過程,任何情況下都應(yīng)該有安全意識)數(shù)據(jù)安全的問題。Elasticsearch 允許您將索引分片的一個或多個副本轉(zhuǎn)換為所謂的副本分片。復(fù)制技術(shù)為我們提供了數(shù)據(jù)的高可用性和搜索吞吐的擴(kuò)展性。不過需要注意的是,副本分片從不分配在與從其復(fù)制的原始/主分片相同的節(jié)點(diǎn)上。
總而言之,每個索引可以拆分為多個分片。索引也可以復(fù)制為零(意味著沒有副本)或更多次。一旦復(fù)制,每個索引將具有主分片(從索引復(fù)制的原始分片)和副本分片(主分片的副本)。開發(fā)者可以在創(chuàng)建索引時就為每個索引定義分片和副本的數(shù)量。創(chuàng)建索引后,可以隨時動態(tài)更改副本數(shù),但不能在此過程后隨即更改分片數(shù)。
三、ES的安裝與服務(wù)啟動
1、下載ES的壓縮包
官網(wǎng)地址: https://www.elastic.co/products/elasticsearch
Window 系統(tǒng)下載 zip 版本,linux 系統(tǒng)下載 tar 版本將下載的zip解壓到指定的磁盤上
2、ES服務(wù)的目錄結(jié)構(gòu)
bin 存放 elasticSearch 運(yùn)行命令 config 存放配置文件 lib 存放 elasticSearch 運(yùn)行依賴 jar 包 modules 存放 elasticSearch 模塊 plugins 存放插件。
3、ES服務(wù)的啟動
指定ES安裝目錄下的bin下的elasticsearch.bat
啟動日志信息如下:
4、訪問ES服務(wù)
四、通過java去訪問ES服務(wù)
1、搭建環(huán)境
創(chuàng)建Maven工廠,添加ES的客戶端坐標(biāo)
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema‐
instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0
http://maven.apache.org/xsd/maven‐4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>cn.itcast.maven</groupId>
<artifactId>elasticsearch_helloworld</artifactId>
<version>0.0.1‐SNAPSHOT</version>
<name>elasticsearch_helloworld</name>
<dependencies>
<dependency>
<groupId>org.elasticsearch</groupId>
<artifactId>elasticsearch</artifactId>
<version>2.4.0</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
</dependency>
<dependency>
<groupId>com.fasterxml.jackson.core</groupId>
<artifactId>jackson‐core</artifactId>
<version>2.8.1</version>
</dependency>
<dependency>
<groupId>com.fasterxml.jackson.core</groupId>
<artifactId>jackson‐databind</artifactId>
<version>2.8.1</version>
</dependency>
<dependency>
<groupId>com.fasterxml.jackson.core</groupId>
<artifactId>jackson‐annotations</artifactId>
<version>2.8.1</version>
</dependency>
</dependencies>
</project>
2、創(chuàng)建索引
@Test
// 直接在ElasticSearch中建立文檔,自動創(chuàng)建索引
public void demo1() throws IOException {
// 創(chuàng)建連接搜索服務(wù)器對象
Client client = TransportClient
.builder()
.build()
.addTransportAddress(
new InetSocketTransportAddress(InetAddress
.getByName("127.0.0.1"), 9300));
// 描述json 數(shù)據(jù)
/*
* {id:xxx, title:xxx, content:xxx}
*/
XContentBuilder builder = XContentFactory
.jsonBuilder()
.startObject()
.field("id", 1)
.field("title", "ElasticSearch是一個基于Lucene的搜索服務(wù)器")
.field("content",
"它提供了一個分布式多用戶能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java開發(fā)
的,并作為Apache許可條款下的開放源碼發(fā)布,是當(dāng)前流行的企業(yè)級搜索引擎。設(shè)計用于云計算中,能夠達(dá)到實(shí)時搜
索,穩(wěn)定,可靠,快速,安裝使用方便。")
.endObject();
// 建立文檔對象
client.prepareIndex("blog1", "article", "1").setSource(builder).get();
// 關(guān)閉連接
client.close();
}
3、查詢索引
@Test
// 各種查詢使用
public void demo3() throws IOException {
// 創(chuàng)建連接搜索服務(wù)器對象
Client client = TransportClient
.builder()
.build()
.addTransportAddress(
new InetSocketTransportAddress(InetAddress
.getByName("127.0.0.1"), 9300));
// 搜索數(shù)據(jù)
// get() === execute().actionGet()
// SearchResponse searchResponse = client.prepareSearch("blog1")
// .setTypes("article")
// .setQuery(QueryBuilders.queryStringQuery("全面")).get();
// SearchResponse searchResponse = client.prepareSearch("blog1")
// .setTypes("article")
// .setQuery(QueryBuilders.wildcardQuery("content", "*全文*")).get();
SearchResponse searchResponse = client.prepareSearch("blog2")
.setTypes("article")
.setQuery(QueryBuilders.termQuery("content", "搜索")).get();
printSearchResponse(searchResponse);
// 關(guān)閉連接
client.close();
}
猜你喜歡:
solr完成VIP等級排名實(shí)例教程[java培訓(xùn)]
2020-04-07傳智播客疫情期間如何保證教學(xué)質(zhì)量?教輔團(tuán)隊(duì)轉(zhuǎn)戰(zhàn)線上
2020-04-03什么是Neo4j?如何通過Neo4j構(gòu)建《人民的名義》的關(guān)系圖譜?
2020-04-03傳智播客Java實(shí)戰(zhàn)項(xiàng)目紀(jì)實(shí):java實(shí)戰(zhàn)項(xiàng)目過程再現(xiàn)
2020-04-03黑馬AI機(jī)器人實(shí)戰(zhàn)教程[Java培訓(xùn)]
2020-03-26上海哪個Java培訓(xùn)好?推薦這兩家
2020-03-22