チャンス発見(Chance Discovery)が面白い
「チャンス発見学」という学問をご存じでしょうか?
これは東京大学の大澤先生が2000年に創設した学問で、いわゆるデータマイニング、テキストマインニング、人工知能、認知科学、自然言語処理、リスクマネジメント等の幅広い分野を統合し、事象の裏に潜むチャンスを発見しようとするアプローチです。詳細は、チャンス発見コンソーシアムのページを参照してください。
私は、著書チャンス発見のデータ分析―モデル化+可視化+コミュニケーション→シナリオ創発を読んで大変興味を持ち、コンソーシアムに入会し、さらに先月セミナーを受けてきました。いきなり中級コースで入りましたが、ある程度の予備知識があれば問題ないと思われます。セミナーの内容は、大まかには
10:00-12:00:チャンス発見学の説明 13:00-16:30:Polarisのインストール&実習
といったところです。
一番の収穫は、Polarisの操作と実習を行えたことでしょう。Polarisとは、大澤氏らが提唱した「チャンス発見の二重螺旋プロセス」をもとに新たに設計されたデータorテキストマイニング・フレームワークです。詳細はこちら
前回のブログでバスケット分析のことを書きましたが、これにもPolarisはかなり使えます。本日も私のクライアントの店長会議にて、さっそく試しましたが、かなり多くの気づきが得られました。
Polarisはバスケット分析に必要な「確信度」と「支持度」を元に、「共起頻度」を出し、その値の高いものからリンクを張るため、相関関係の高いものを一覧することが可能です。
(*支持度、確信度とは{ 単品1 単品2 } ==> { 単品3 } 単品1、2を買った時に単品3を購入する確率です。これを「相関ルール(association rule)」とよび、このルールが成り立つ割合を「確信度」(confidence)、{単品1 単品2}または{単品3}の全トランザクションに占める割合を支持度(support)とよびます。)
これにより、今まで難しかったデータから仮説を立てることが可能になり、高度な分析技術を持たなくても、知見を得ることが可能となります。特に3~4人でこのグラフ(Key graph)を見てディスカッションするだけでも、多くのトピックスがでます。このコンピュータ(データ)+3~4人のヒト(経験)がとても良いバランスで、コラボレーションが新たな気づきを生み出します。
下記の図を見てください。黒点を黒い線が結んでいます。(島と言います) それを赤い点が結んでいます。(橋と言います) 黒点はテキストデータの中の高頻度ワードを表します。また黒い線はワードとワードのリンクの強さ(相関)を表します。つまり、上記の支持度/確信度の数値が高いもの(共起頻度と言います)から順に、実線→点線となります。これにより、アイテム間の相関関係を一覧でみることができます。Polarisでは、このほかに特定のワードに注目したり、また同義語を辞書登録したりできますので、ある程度操作に慣れれば普通では見つからないようなルールを発見できる可能性が格段に高まります。
個人的には、これはコンサルティング全般にかなり使えるツールと思います。アンケート分析や顧客の声分析、コールセンターのログ解析なんかにも強力な武器となりそうです。今後、PentahoのETLツールKettleやデータマイニングツールWekaと組み合わせることで、さらに統合的なBIツールとして活用できる期待があり、当社でも様々な使い方を検討していきたいと思います。