CouchBase サーバーは高速なドキュメント指向(JSON)データベースです。高速・大容量のデータを得意とする一方、SQL 型と異なり、SQL select による(like 節による)全文検索は苦手です。
ただ CouchBase は Apache Lucene をベースとするオープンソースでスケーラブルな全文検索&解析エンジン ElasticSearch と連携することで、この苦手部分を補っています。単なる SQL select よりも強力な検索エンジンと組み合わせることで CouchBase サーバーは更に強力なデータベースとなります。
この CouchBase サーバー環境に ElasticSearch を導入して連携させるところまでの手順を紹介します。なお CouchBase サーバー自体の導入はこちらを参照してください。CouchBase サーバーの導入まではできているという前提で、また今回は CouchBase サーバーと同じサーバー内に ElasticSearch サーバーを導入して環境構築するという前提で以下を記述します。また以下の内容についてはこの記事を記載している 2014/06/11 時点の最新環境である CouchBase 2.5.1 / ElasticSearch 1.2.1 / Couchbase Plug-in for Elasticsearch 1.3.0 の各バージョンにて確認しています。
まず ElasticSearch の動作に必要な Java 環境(Java 6以上)を用意します。Oracle Java を導入しても構いませんが、Open Java であれば以下のコマンドで導入可能です(Java 7 の場合):
次に検索エンジンである ElasticSearch 本体を導入します。公式サイトから最新版(2014/06/11時点では 1.2.1)のインストールモジュールをダウンロードします。インストールモジュールにはいくつかの種類はありますが、今回は rpm パッケージ版(elasticsearch-1.2.1.noarch.rpm)をダウンロードします。
ダウンロードできたら rpm コマンドでインストールして起動、および自動起動設定までを行います。ちなみにこの rpm 版をインストールした場合、ElasticSearch 本体は /usr/share/elasticsearch/ 以下に導入されます :
これで検索エンジンの ElasticSearch 本体がインストールされました。が、実際の利用時には CouchBase サーバーのデータを ElasticSearch に複製した上で検索インデックスを作成して、CouchBase サーバーの中に入っているデータに対する検索エンジンとして使いたいのです。 というわけで、これら2つを接続するためのプラグイン(と、ElasticSearch の設定をウェブから行うためのインターフェースアプリケーション)を最後に導入します。
Elastic Head の導入と、ElasticSearch の再起動までができたらウェブブラウザで
http://(サーバーのIPアドレス):9200/_plugin/head/
にアクセスして、ウェブインターフェースが表示されることを確認してください:

接続用プラグインが導入できたので、次はインデックステンプレートを導入します。今回はデフォルトのインデックステンプレートを使って、インストール時に追加した beer-sample サンプルバケットを対象に設定してみます。また ElasticSearch の導入されたホストから実行する前提で記載しているので localhost を使っていますが、ElasticSearch がリモート環境にある場合は localhost 部分を該当ホストの IP アドレスに変えて実行してください:
最後に XDCR の設定をしてデータの複製処理を定義します。
Couchbase ウェブコンソール(http://***:8091) にログインしてします:

XDCR タブを開いて、 "Create Cluster Reference" をクリックします:


では最後にこの環境で CouchBase サーバーに格納したデータが全文検索できることを確認してみましょう。
まずは CouchBase にいくつかのデータを格納してみます。CouchBase ウェブコンソールにログインし、Data Buckets タブを開き、上記で複製の設定を行った beer-sample バケットの右にある Documents ボタンをクリックします:

beer-sample バケット内のデータ一覧が表示されます。が、最初の段階ではデータが入ってないので何も表示されません。ここに Document(レコード)を追加してみましょう。Create Document ボタンをクリックします:

作成する Document の ID (ハッシュキー)を適当に指定します。ここでは doc001 と入力しています。Create ボタンで作成します:

デフォルトの内容で Document が1つ作成されました。Document が JSON フォーマットになっていることが分かります。この画面はエディタなので、ここから Document の中身を変更することも可能です:

こんな感じの日本語のデータに書き換えてみました:
Save で保存できます:

Documents の一覧に戻ると作成したデータが登録されていることが確認できます。以降この手順を繰り返して Document をいくつか作成しておきます:

検索用にいくつかのデータを適当に登録してみます。JSONフォーマットなので "title" や "body" といったフィールド名も自由に追加・変更して格納できます:

先程複製の設定を済ませているので、ここで CouchBase サーバーに登録したデータは ElasticSearch に複製されており、全文検索ができるようになっているはずです。ではその様子を確認してみます。
今度は Elastic Head にアクセスしてみて、Browser タブを選択します。この時点では何の絞り込みもしていないので、管理用データも含めて全てのレコードが右側のペインに表示されています:

試しに、上記の2番目に登録した、id = doc002 のデータを検索してみます。左側のペインで title と書かれた箇所をクリックして展開し、そのテキストフィールドに "タイトル" と入力すると、右側のペインに id 列が doc002 のデータが見つかるはずです。CouchBase サーバー内のデータが日本語で全文検索できるようになったことが確認できました:

検索されたレコードをダブルクリックするとこんな画面が表示されます。直接 CouchBase の中身が表示されるわけではなく、ElasticSearch 側に格納されたレコードの情報が表示されるので、実際に検索した文字列が表示されるわけではありません。その代わり「title フィールドに "タイトル" という文字が含まれているレコードの id は doc002」ということが分かりました。実際のアプリケーションではこの結果を元に再度 CouchBase サーバーに id 指定で問い合わせをして、このデータレコードの情報を取得・更新・削除する、という処理フローになります:

高速・大規模利用を想定した CouchBase で、ネックだった全文検索(それも日本語の)もこの方法でカバーできるようになりそうです。自分もまだ詳しく理解できているわけではなくて、これから調べることも多そうだけど、これはなかなかヒットの予感。。
ただ CouchBase は Apache Lucene をベースとするオープンソースでスケーラブルな全文検索&解析エンジン ElasticSearch と連携することで、この苦手部分を補っています。単なる SQL select よりも強力な検索エンジンと組み合わせることで CouchBase サーバーは更に強力なデータベースとなります。
この CouchBase サーバー環境に ElasticSearch を導入して連携させるところまでの手順を紹介します。なお CouchBase サーバー自体の導入はこちらを参照してください。CouchBase サーバーの導入まではできているという前提で、また今回は CouchBase サーバーと同じサーバー内に ElasticSearch サーバーを導入して環境構築するという前提で以下を記述します。また以下の内容についてはこの記事を記載している 2014/06/11 時点の最新環境である CouchBase 2.5.1 / ElasticSearch 1.2.1 / Couchbase Plug-in for Elasticsearch 1.3.0 の各バージョンにて確認しています。
まず ElasticSearch の動作に必要な Java 環境(Java 6以上)を用意します。Oracle Java を導入しても構いませんが、Open Java であれば以下のコマンドで導入可能です(Java 7 の場合):
# yum install java-1.7.0-openjdk
次に検索エンジンである ElasticSearch 本体を導入します。公式サイトから最新版(2014/06/11時点では 1.2.1)のインストールモジュールをダウンロードします。インストールモジュールにはいくつかの種類はありますが、今回は rpm パッケージ版(elasticsearch-1.2.1.noarch.rpm)をダウンロードします。
ダウンロードできたら rpm コマンドでインストールして起動、および自動起動設定までを行います。ちなみにこの rpm 版をインストールした場合、ElasticSearch 本体は /usr/share/elasticsearch/ 以下に導入されます :
# rpm -ivh elasticsearch-1.2.1.noarch.rpm
# /etc/init.d/elasticsearch start
# chkconfig elasticsearch on
これで検索エンジンの ElasticSearch 本体がインストールされました。が、実際の利用時には CouchBase サーバーのデータを ElasticSearch に複製した上で検索インデックスを作成して、CouchBase サーバーの中に入っているデータに対する検索エンジンとして使いたいのです。 というわけで、これら2つを接続するためのプラグイン(と、ElasticSearch の設定をウェブから行うためのインターフェースアプリケーション)を最後に導入します。
# cd /usr/share/elasticsearch # bin/plugin -install transport-couchbase -url http://packages.couchbase.com.s3.amazonaws.com/releases/elastic-search-adapter/1.3.0/elasticsearch-transport-couchbase-1.3.0.zip # echo "couchbase.password: password" >> /etc/elasticsearch/elasticsearch.yml # echo "couchbase.username: Administrator" >> /etc/elasticsearch/elasticsearch.yml
(以下引き続き ElasticSearch Head(ウェブインターフェース)の導入) # /etc/init.d/elasticsearch stop # bin/plugin -install mobz/elasticsearch-head # /etc/init.d/elasticsearch start
Elastic Head の導入と、ElasticSearch の再起動までができたらウェブブラウザで
http://(サーバーのIPアドレス):9200/_plugin/head/
にアクセスして、ウェブインターフェースが表示されることを確認してください:

接続用プラグインが導入できたので、次はインデックステンプレートを導入します。今回はデフォルトのインデックステンプレートを使って、インストール時に追加した beer-sample サンプルバケットを対象に設定してみます。また ElasticSearch の導入されたホストから実行する前提で記載しているので localhost を使っていますが、ElasticSearch がリモート環境にある場合は localhost 部分を該当ホストの IP アドレスに変えて実行してください:
# cd /usr/share/elasticsearch
# curl -XPUT http://localhost:9200/_template/couchbase -d @plugins/transport-couchbase/couchbase_template.json
→{ "acknowledged":true } が返ってくることを確認
# curl -XPUT http://localhost:9200/beer-sample
→{ "ok":true, "acknowledged":true } が返ってくることを確認
# echo "couchbase.maxConcurrentRequests: 1024" >> /etc/elasticsearch/elasticsearch.yml
# /etc/init.d/elasticsearch restart
# curl -X POST -u Administrator:password http://localhost:8091/internalSettings -d xdcrMaxConcurrentReps=8
最後に XDCR の設定をしてデータの複製処理を定義します。
Couchbase ウェブコンソール(http://***:8091) にログインしてします:

XDCR タブを開いて、 "Create Cluster Reference" をクリックします:

以下を入力して "Save" します:
Cluster Name: "ElasticSearch"
IP: (IPアドレス):9091
Username: Administrator
From -> Bucket: beer-sample
To -> Cluster: ElasticSearch
To -> Bucket: beer-sample
この状態で改めて Elastic Search のウェブインターフェースにアクセスするとデータの複製が確認できます:
では最後にこの環境で CouchBase サーバーに格納したデータが全文検索できることを確認してみましょう。
まずは CouchBase にいくつかのデータを格納してみます。CouchBase ウェブコンソールにログインし、Data Buckets タブを開き、上記で複製の設定を行った beer-sample バケットの右にある Documents ボタンをクリックします:

beer-sample バケット内のデータ一覧が表示されます。が、最初の段階ではデータが入ってないので何も表示されません。ここに Document(レコード)を追加してみましょう。Create Document ボタンをクリックします:

作成する Document の ID (ハッシュキー)を適当に指定します。ここでは doc001 と入力しています。Create ボタンで作成します:

デフォルトの内容で Document が1つ作成されました。Document が JSON フォーマットになっていることが分かります。この画面はエディタなので、ここから Document の中身を変更することも可能です:

こんな感じの日本語のデータに書き換えてみました:
{
"title": "ワールドカップ",
"body": "がんばれ、日本代表!"
}
Save で保存できます:

Documents の一覧に戻ると作成したデータが登録されていることが確認できます。以降この手順を繰り返して Document をいくつか作成しておきます:

検索用にいくつかのデータを適当に登録してみます。JSONフォーマットなので "title" や "body" といったフィールド名も自由に追加・変更して格納できます:

先程複製の設定を済ませているので、ここで CouchBase サーバーに登録したデータは ElasticSearch に複製されており、全文検索ができるようになっているはずです。ではその様子を確認してみます。
今度は Elastic Head にアクセスしてみて、Browser タブを選択します。この時点では何の絞り込みもしていないので、管理用データも含めて全てのレコードが右側のペインに表示されています:

試しに、上記の2番目に登録した、id = doc002 のデータを検索してみます。左側のペインで title と書かれた箇所をクリックして展開し、そのテキストフィールドに "タイトル" と入力すると、右側のペインに id 列が doc002 のデータが見つかるはずです。CouchBase サーバー内のデータが日本語で全文検索できるようになったことが確認できました:

検索されたレコードをダブルクリックするとこんな画面が表示されます。直接 CouchBase の中身が表示されるわけではなく、ElasticSearch 側に格納されたレコードの情報が表示されるので、実際に検索した文字列が表示されるわけではありません。その代わり「title フィールドに "タイトル" という文字が含まれているレコードの id は doc002」ということが分かりました。実際のアプリケーションではこの結果を元に再度 CouchBase サーバーに id 指定で問い合わせをして、このデータレコードの情報を取得・更新・削除する、という処理フローになります:

高速・大規模利用を想定した CouchBase で、ネックだった全文検索(それも日本語の)もこの方法でカバーできるようになりそうです。自分もまだ詳しく理解できているわけではなくて、これから調べることも多そうだけど、これはなかなかヒットの予感。。





コメント