まだプログラマーですが何か?

プログラマーネタとアスリートネタ中心。たまに作成したウェブサービス関連の話も http://twitter.com/dotnsf

タグ:personality

Watson API Explorer を実際に使って Watson API を体験してみます。今回は一人の人が書いたテキスト(メールや報告文やインターネットでの書き込みなど)を元にして、その文章の中で使われている単語の傾向や頻度などから、その人の性格を分析する、という Personality Insights API を使ってみます。

なお、このブログエントリはこの続きです。Watson API Explorer そのものの紹介など、まずはこちらの内容を一度確認ください:
Watson API Explorer の使いかた

また、Natrual Language Classifier API についてはこちらで紹介しました。今回はこれの Personality Insights 版になります:
Watson API Explorer で Natural Language Classifier を体験する


実をいうと NLC(Natural Language Classifier) の時と比べて、今回の方がシンプルな紹介になっています。NLC ではデータを学習させて、学習状況を確認して、問い合わせて、、、と色々な API が用意されていましたが、その点では Personality Insights の API は1つだけ(Deprecated な API を含めても2つだけ)なので、その紹介も簡単なのでした。


では実際に Personality Insights を使ってみましょう。まずは Personality Insights を利用するための資格情報を入手する必要があります。 IBM Bluemix にログインし、カタログ画面から Watson カテゴリ内の Personal Insights を選択してインスタンスを作成します:
2016070301


インスタンスを作成したら、そのインスタンスの「サービス資格情報」を確認します。画面内に資格情報が JSON フォーマットのテキストで表示されます。この中の username と password の値が必要になるので、メモしておきましょう。ここまでは前回と同じですね:
2016070302


ここまでの準備ができれば Watson API Explorer で Personality Insights を試してみることができます。まずは Watson API Explorer にウェブブラウザでアクセスします:
2016063000


画面内の "Personality Insights" と書かれたリンクを探してクリックします:
2016070303


すると以下のような Personality Insights API の OpenAPI document が表示されます。
2016070304


画面右上の欄に先ほどメモした username と password をそれぞれ入力します。これで API を実行することが可能になります:
2016070305


実際に性格分析を試してみましょう。性格分析を行うのは画面内リストの上にある POST /v2/profile という API です。 この API を選択します:
2016070306


この API の説明を読むと分かるのですが、性格分析はものすごくシンプルな API を呼ぶだけだったりします。まずリクエストヘッダの中で性格分析を実行するテキスト(後述)の言語を指定する必要があります。 Personality Insights API は日本語テキストにも対応しており、日本語テキストから性格を分析する場合は Content-Language ヘッダの値を "ja" に設定します:
2016070301


そして性格を分析する本文をリクエストボディ(Body)に与えます。シンプルなテキストで与える場合は Content-Type を text/plain にする必要があるので、同時に設定しておきます。なおどの言語のテキストにも言えることですが、ある程度以上の分量(というか単語量)がないと性格分析は動作できないので、それなりの分量のテキストを用意して Body に入力してください。実際にはここで与えるテキストは送信メールや SNS への書き込みなどから自動的に取得して取り出すようなものを使うイメージです:
2016070302


与える情報はこれだけです。最後に "Try it out!" ボタンをクリックして API を実行します:
2016070303


与えたテキストの分量が少なすぎたりすると 200 以外のステータスコードになって失敗しますが、HTTP ステータスコード 200 が返ってくれば成功です。その場合、Response Body には性格分析結果の JSON テキストが返ってくるはずです:
2016070304


なお日本語テキストの場合、動作するためには最低でも 70 単語が必要で、ある程度の精度を求めるには 3,500 単語以上、一般的には 6,000 単語以上必要である、とのことです(という警告メッセージがアウトプットされた JSON テキストの中に書かれています)。なので、例えばメールにしても1回に送信するメールの中身だけだと、動くことは動くが、あまり精度の高い結果にはならないことが予想されます。アプリケーションとして実装するには、それなりの量のインプットデータを入手する仕組みと併せて実装する必要があるように思えます。

アウトプットされた結果の意味も Watson API Explorer の画面で解説されているのですが、簡単に日本語でも紹介しておきます。

API 実行が成功した場合の JSON テキストは以下のようになっているはずです:
{
  "id": "*UNKNOWN*",
  "source": "*UNKNOWN*",
  "word_count": 250,
  "word_count_message": "There were 250 words in the input. We need a minimum of 3,500, preferably 6,000 or more, to compute statistically significant estimates",
  "processed_lang": "ja",
  "tree": {
    "id": "r",
    "name": "root",
    "children": [
      {
        "id": "personality",
        "name": "Big 5",
        "children": [
          {
            "id": "Openness_parent",
            "name": "Openness",
            "category": "personality",
            "percentage": 0.8817962669891322,
            "children": [
              {
                "id": "Openness",
                "name": "Openness",
                "category": "personality",
                "percentage": 0.8817962669891322,
                "sampling_error": 0.06374453499999999,
                "children": [
                  {
                    "id": "Adventurousness",
                    "name": "Adventurousness",
                    "category": "personality",
                    "percentage": 0.6949448384206791,
                    "sampling_error": 0.053405595
                  },
                  {
                    "id": "Artistic interests",
                    "name": "Artistic interests",
                    "category": "personality",
                    "percentage": 0.5663919553503082,
                    "sampling_error": 0.108869125
                  },
                     :
                     :

この結果は結構深い階層構造になっています。まず結果の "tree" 要素の中に性格分析結果が含まれています。その下の "children" の中は3つの要素からなるカテゴリー別の分析結果(の配列)になっていて、最初の1つ目が "Big 5" と呼ばれる手法に従っての性格分析結果になっています。"Big 5" という名前の通り、5つのカテゴリに分けた性格分析がされており、その子要素(children)の最初は "Openness"(開放性)に関する分析結果になっています。Openness の下にも更に細分化された性格分析の結果が含まれており、上記例ですと "Adventurousness"(冒険性)が 0.6949.. つまり約 69.5 %、そのサンプリングエラー値が約 5.3% である、という結果になっています。同様に "Artistic interests"(芸術への理解)の値は約 56.6% で、サンプリングエラー値は約 10.9% である、とされています。このような形での性格分析結果が1つの JSON テキストでまとめて得られてた、ということが分かります。


Watson Personality Insights API による性格分析というのはこのようなものです。つまり入力したテキストに対する分析結果を JSON テキストで返す、という非常にシンプルなものです。この結果をどのように視覚化するか、という部分に関しては原則的には利用者に任されていますが、一例がもう1つの API (POST /v2/visualize ※deprecated)として提供されています。

先ほどの POST /v2/profile の結果の JSON テキストをそのまま POST /v2/visualize を展開した Body に入力します。Content-Type を application/json に設定しておきます:
2016070305


この状態で "Try it out!" ボタンをクリックすると、/v2/profile の結果を使った視覚化処理が行われ、実際にウェブページ内で視覚化を行うための HTML(の一部)が Response Body に返されます:
2016070306


Response Body の中身は HTML 内で使える <script> タグ(<script> ~</script>)なので、これに適当な HTML タグを与えてブラウザで開くと、性格分析結果がこのようなパイチャートのグラフになって表現することができます:
2016070307


ただ、このパイチャート形式のグラフで表現するのはあくまで一例であって、これを使わなければならない、というものではありません。実際に API 自体も deprecated 扱いになっていますし、参考程度に使ってください。

なお、Personality Insights の API そのものの詳細については以下のリファレンスを参照ください:
http://www.ibm.com/watson/developercloud/personality-insights/api/v2/


 

祝 IBM Watson サミット 2016 開催記念!

本当は政治家相手のを作ってましたが、こっちの総選挙が近いので急遽AKB版を作りました。「自分と性格の近い/遠い総選挙メンバーを調べる」というサービスです:


僕個人のプロフィールを知っている人であればなんとなく想像しているかもしれませんが、このサービスは IBM WatsonPersonality Insights という、個人の性格分析 API を使って開発しています。

具体的には、今回の総選挙に立候補を表明したメンバー(http://sousenkyo.akb48.co.jp/member.php)の中で、ツイッターアカウントを持っている人を対象に上記 Watson API を使って性格を分析しています。この分析済みのデータと、利用する人(あなた)のツイッターデータから分析した性格を比較します。性格分析には Big 5 と呼ばれる5つの視点からの性格分析を行い、それぞれの項目ごとと全体とで利用者に似た性格のメンバーと、性格の遠いメンバーとを調べて図示します。

インプットデータにツイッターのツイートを使うため、ツイッターのアカウントを持っていること(そしてある程度の量をツイートしていること)が前提になります。ただツイッターアカウントを持っていなくても、各メンバーの性格を参照することは可能です(その場合、自分との比較はできません):
2016052203


実際に比較する場合は画面右上のツイッターアイコンをクリック(タップ)してツイッターにログイン、するだけで、結果を表示してくれます。スマホから利用する場合は結果のチャートが潰れてしまうのを避けるため、画面を横向き(横長)にして実行してください。


性格は客観的な分析が難しく、本人でもわかっていない部分があったりしますが、このサービスではツイッターというツールを使い、その中で使われている語彙や単語の傾向などから性格を分析します。なお、インプットデータは直近400件のツイートデータです。AKB メンバーの性格分析には2016/05/20時点での直近400データを使いました。利用者の性格はリアルタイムに直近400データを使います(なので、一度調査した後にいくつかツイートして、再度調べると結果が変わる可能性があります)。自分の推しメンと性格が近いのか遠いのか、そして自分の知らない一面に気付くと同時に、新たな増しメンの可能性を追求していますw

※400件ツイートしてないとダメ、というわけではないのですが、あまりにデータが少ないと性格分析ができないため、目安として400件を意識してください。


あとはまあ普通の同様のサービスのように、結果をシェアする、といった機能も含めました。ちなみに「フレッシュレモン推し」の僕の(2016/05/22 時点での)結果はこんな感じでした:
http://akb-finder.mybluemix.net/result.jsp?id=dotnsf

(全体的に似てるのは入山さん)
2016052201


(Big 5 個別だと東さんと森田さんが近そう。確かにレーダーチャート的にはそっくり)
2016052202


正直、まだ画面構成やデバッグなど不十分な点は自覚していますが、できれば総選挙前に(自分の票をどこに入れるのかの参考にするために)リリースしたかったので、この段階でリリースすることにしました。特に見栄えの未熟な点はご容赦ください。



以下はこのサービスで使っている技術についての解説です。こういう人工知能的なテクノロジーに興味がある人向けです。

まずこのサービスで使っている性格分析 API である IBM Watson Personality Insights について日本語で紹介している資料はまだあまり多くないのですが、以下の PDF はその技術解説や日本語化の裏話、将来的な可能性についての読み物として公開されているものです。興味ある方はご一読いただくことをオススメします:
http://www-01.ibm.com/common/ssi/cgi-bin/ssialias?htmlfid=CO113416JPJA

技術的な視点では、このような人の性格分析がウェブの API として、それも(日本語の)テキストをインプットするだけで性格をアウトプットしてくれる、という簡易さが今後のユーザー向けサービスを大きく変える可能性を秘めていると思っています。

PDF の中でも触れられていますが、人の性格を分析するのは決して簡単なことではありません。にも関わらず、多くのベータユーザーの皆さんの協力や、研究の成果によって、「一人の人が書いたテキスト」から性格の傾向を分析することに成功し、ある程度の実証ができるようになりました。そしてその機能が誰でも(ウェブ上に公開された API として)利用できるようになりました。まずこの点で画期的なブレイクスルーが実現しています。

「一人の人が書いたテキスト」をどのようにして集めるか、という問題もあります。ただウェブであれば、このサービスで実現したようなツイッターや facebook といった SNS のデータを使うことができます。企業内利用であればユーザーの送信メールや社内掲示板や電子報告書などからもデータを取得することが可能です(プライバシーポリシーにもよりますけど、技術的には簡単ですよね)。またサービス利用者からの問い合わせ内容を再利用することも可能です。

そして性格が分析できると、「似た人」や「遠い人」、「何が似ているのか?」といった要素がわかってきます。そして似た人の行動を(個人情報を開示しない形で)提供する、という新しいリコメンドの可能性も見えてきます。それらが(充分な量の)テキストから取得できるようになる、という可能性を秘めていることになります。

ただし、「性格分析結果のどこまでを個人情報として扱うべきか?」などの新しい問題も出てきます。「個人を特定可能なのか?」、「性格分析の精度は?」、「法の整備は?」、「会社としてのポリシーをどうすべきか?」などなど。 人工知能技術の発展によって、どこまでロボットの人格を認めるべきかという議論の必要性が考えられますが、同時にそのロボットの判断結果をどこまでセキュアに保護すべきか?という議論も必要になってくるわけです。

私も API を使ってアプリやサービスを作っている立場として、色々な意味で新しい世界に踏み込みつつあることを実感しています。


というわけで、言い出しっぺの役割もあると思い、今年はフレッシュレモンこと市川美織さんに加えて入山杏奈さんの2名に票を投じることを宣言します!



IBM Bluemix から提供されているワトソン関連の API の中には、入力テキストを元に性格を分析する、という Perosnality Insights API があります:
2016040103


僕の以前のブログエントリでもリリース時にレポートしています。その時の様子はこちらを参照ください:
Bluemix の性格分析 API が正式サービス化  (←改めて見ると中身のないエントリだ・・・)



この Personality Insights API のリリースノートを眺めていて気付いたのですが・・・
2016040101


なんと、いつの間にか日本語対応していたっぽいです! POST 時の JSON パラメータか、あるいは HTTP リクエストヘッダで Content-Language を ja にすればよい、とのこと。

今日(2016/Apr/01)エイプリルフールだけどマジか!? ということで試してみました。HttpClient ライブラリを使った Java でのサンプルですが、こんな感じで:
String pi_url = "https://gateway.watsonplatform.net/personality-insights/api";
String pi_username = "(ユーザー名)", pi_password = "(パスワード)";
String body = "・・・・・(日本語テキスト)・・・・・";

HttpClient client = new HttpClient();
byte[] b64data = Base64.encodeBase64( ( pi_username + ":" + pi_password ).getBytes() );

PostMethod post = new PostMethod( pi_url + "/v2/profile" );
post.setRequestHeader( "Content-Language", "ja" ); //. 日本語であることを宣言
				
post.setRequestHeader( "Authorization", "Basic " + new String( b64data ) );
post.setRequestHeader( "Content-Type", "text/plain" );
post.setRequestBody( body ); //. 日本語テキストをポスト
				
int sc = client.executeMethod( post );
String out = post.getResponseBodyAsString(); //. 結果


結果の out 変数を出力すると、このような値が含まれていました:
2016040102

 ↑僕の最近のツイッターからインプットテキストを作りました。「チャレンジが足りない」とか言われてる気がする・・・ 



結果の JSON テキストが返ってきています。しかも "proccessed_lang" の値がちゃんと "ja" になっているので、日本語テキストとして処理された、ということになります。JSON の結果そのものは英語で返されていますが、日本語のテキストを元に性格分析ができるようになった、ということです。おおーっ!これは使いみちありそうだぞ。

例えばメールや SNS など、特定の1名のユーザーが入力したテキスト情報を充分な量集めてこの API を実行すれば、そのユーザーの性格という属性の塊を得ることができるようになるわけです。電話などでの会話の音声データをテキスト化してインプットデータとする、ということも考えられます。そして Personality Insights API を実行した結果を使って、そのユーザーの性格にあった対応や返答をプロアクティブに行うこともできるようになるわけで、それが日本語でも可能になったわけです。

色々楽しみが増えました。なお Personality Insights API の具体的な使い方を含めた API リファレンスはこちらを参照ください:
https://watson-api-explorer.mybluemix.net/apis/personality-insights-v2#!/personality-insights/


↑この API リファレンス内の記述だと、まだ英語とスペイン語のみ、という記述になってますね。ドキュメントが追いついてないくらいの最新情報でした!


先日、このブログでも紹介した、IBM Bluemix から提供されている性格分析の人工知能 API "Personality Insights" に関する新着情報です:
IBM Bluemix で性格分析サービスを使う


Bluemix から提供されているコグニティブ(学習型人工知能)サービスの先陣を切って、この Personality Insights API がベータ版を卒業し、正式サービスとしての運用が開始されました:
2015032000
↑「IBM ベータ」の「ベータ」が取れました。


そして正式公開に併せて価格も変更されました。これまではベータ版だったため、制限なく無料で利用できていましたが、今後は1回のコールにつき 63 円かかります。ただし月間 100 コールまでは無料枠として実行できるようになっています:
2015032001

今後、この API を利用する場合は料金にもご注意ください。なお、現時点では他のサービスはまだベータ版扱いとなっています。

(2015/03/21 補足)
この正式サービスインされた Personality Insights サービスも無料トライアル30日期間中は制限なく無料で利用できます。






 

IBM Bluemix から提供されているコグニティブ(Cognitive : 学習型人工知能)サービスの1つ、Personality Insights サービスを紹介します:
2015031601


このサービスは IBM が研究開発しているコグニティブエンジンの1つである WATSON サービスの1つで、与えられたテキスト情報(メール本文など、1人の誰かが書いたテキスト)だけを元に、その人の性格を分析する、というサービスです。残念ながらまだ日本語テキストには対応していませんが、英語メッセージであれば、ベータ版の現在は無料でこの機能を利用することが可能です。


このサービスの API が IBM Bluemix を通じて提供されます。つまり IBM Bluemix をお使いのユーザーであれば誰でもこの API を利用することができることになります。人工知能やその学習、ビッグデータ解析といった複雑な部分は全てブラックボックス化されており、単純にテキストをポストすれば結果を JSON フォーマットで取得できます。

このサービスはデモサイトが用意されています。API を使う前に、まずはこのサービスがどのようなものかをデモサイトを体験することで理解してみましょう:
Personal Insights Demonstration


上記ページを開くと、画面左ペインに英文テキストが表示されています。この中に解析したいテキスト(メール本文など)をコピー&ペーストなどで入力します。最初はデフォルト状態で入力されているテキストをそのまま使っても構いません:
2015031602


なお解析を行うには 100 単語以上からなるテキストを入力する必要があります(短すぎると解析できません):
2015031603


"Analyze" ボタンをクリックすると、このテキストが Personal Insights API に送られ、性格分析が行われます。その結果が画面右側に表示されます:
2015031604


更に下部には結果を視覚化したグラフが表示されています。この視覚化機能も現在は API の一部として提供されていますが、現在では deprecated 扱いになっており、将来的には使えなくなる(D3.js など別途視覚化ライブラリを使ってグラフ化する必要がある)予定になっています:
2015031606


上記のように、現在では与えられたテキストから、その著者の性格を分析して JSON フォーマットで返すという API と、その結果を更に視覚化する、という API の、2つの API が提供されています。ただし後者については将来的に廃止予定となっている、という状況です。まあ視覚化のための要素は JSON で取得できるため、後は何らかのライブラリを使って表示すればいいのだと思っています。グラフ化はあまりコグニティブな要素もないためだと思われます。


実際の使い方は API Reference を参照いただきたいのですが、Personality Insights プロファイル API のエンドポイントである https://gateway.watsonplatform.net/personality-insights/api/v2/profile (実際にはこの値も環境変数から取得できます) に対して、認証情報と解析したいメッセージ本文をプレーンテキストで POST すると、解析結果が以下のような、サンプリング誤差率※も含めたツリー型の JSON フォーマットで取得できる、というものです(赤字はコメント):
{
 "id":"*UNKNOWN*",
 "source":"*UNKNOWN*",
 "word_count":2196,  単語数
 "tree":{
  "id":"r",
  "name":"root",
  "children":[
   {
    "id":"personality",  性格
    "name":"Big 5 ",  性格の5大要素
    "children":[
     {
      "id":"Openness_parent",
      "name":"Openness",  社交性
      "category":"personality",
      "percentage":0.9493716242287923,  94.94%
      "children":[
       {
        "id":"Openness",
        "name":"Openness",  社交性
        "category":"personality",
        "percentage":0.9493716242287923,  94.94%
        "sampling_error":0.14430105599999998,  サンプリング誤差率 14.43%
        "children":[
         {
          "id":"Adventurousness",
          "name":"Adventurousness",  冒険心
          "category":"personality",
          "percentage":0.7224550516937974,  72.25%
          "sampling_error":0.11646272  サンプリング誤差率 11.65%
         },
         {
          "id":"Artistic interests",
          "name":"Artistic interests",  芸術性への興味
          "category":"personality",
          "percentage":0.16797400413558944,  16.80%
          "sampling_error":0.22150304  サンプリング誤差率 22.15%
         },
         {
             :
         }
       },
       {
         :
       }
      ]
     },
     {
       :
     }
   }
  ]
 }
}
※サンプルを元に推定した結果と、実際の値との誤差。この値が小さいほど精度が高い推測値、ということになる

後はアプリケーション側で、この得られた JSON テキストを解析して、一定の誤差率を下回るものだけを対象にするなどして性格分析結果を可視化する、といった処理をすることになると思います。


この Personality Insights API に関しては、解析結果に確実性だけでなくサンプリング誤差率まで含めて提供されるので、アプリケーション側での扱いにも自由度というか、独自性を出しやすい API だと感じました。




 

このページのトップヘ