メイン

データマイニング アーカイブ

2007年10月05日

チャンス発見(Chance Discovery)が面白い

「チャンス発見学」という学問をご存じでしょうか?

これは東京大学の大澤先生が2000年に創設した学問で、いわゆるデータマイニング、テキストマインニング、人工知能、認知科学、自然言語処理、リスクマネジメント等の幅広い分野を統合し、事象の裏に潜むチャンスを発見しようとするアプローチです。詳細は、チャンス発見コンソーシアムのページを参照してください。

私は、著書チャンス発見のデータ分析―モデル化+可視化+コミュニケーション→シナリオ創発を読んで大変興味を持ち、コンソーシアムに入会し、さらに先月セミナーを受けてきました。いきなり中級コースで入りましたが、ある程度の予備知識があれば問題ないと思われます。セミナーの内容は、大まかには
10:00-12:00:チャンス発見学の説明  13:00-16:30:Polarisのインストール&実習
といったところです。

一番の収穫は、Polarisの操作と実習を行えたことでしょう。Polarisとは、大澤氏らが提唱した「チャンス発見の二重螺旋プロセス」をもとに新たに設計されたデータorテキストマイニング・フレームワークです。詳細はこちら

前回のブログでバスケット分析のことを書きましたが、これにもPolarisはかなり使えます。本日も私のクライアントの店長会議にて、さっそく試しましたが、かなり多くの気づきが得られました。
Polarisはバスケット分析に必要な「確信度」と「支持度」を元に、「共起頻度」を出し、その値の高いものからリンクを張るため、相関関係の高いものを一覧することが可能です。

(*支持度、確信度とは{ 単品1 単品2 } ==> { 単品3 } 単品1、2を買った時に単品3を購入する確率です。これを「相関ルール(association rule)」とよび、このルールが成り立つ割合を「確信度」(confidence)、{単品1 単品2}または{単品3}の全トランザクションに占める割合を支持度(support)とよびます。)

これにより、今まで難しかったデータから仮説を立てることが可能になり、高度な分析技術を持たなくても、知見を得ることが可能となります。特に3~4人でこのグラフ(Key graph)を見てディスカッションするだけでも、多くのトピックスがでます。このコンピュータ(データ)+3~4人のヒト(経験)がとても良いバランスで、コラボレーションが新たな気づきを生み出します。

下記の図を見てください。黒点を黒い線が結んでいます。(島と言います) それを赤い点が結んでいます。(橋と言います) 黒点はテキストデータの中の高頻度ワードを表します。また黒い線はワードとワードのリンクの強さ(相関)を表します。つまり、上記の支持度/確信度の数値が高いもの(共起頻度と言います)から順に、実線→点線となります。これにより、アイテム間の相関関係を一覧でみることができます。Polarisでは、このほかに特定のワードに注目したり、また同義語を辞書登録したりできますので、ある程度操作に慣れれば普通では見つからないようなルールを発見できる可能性が格段に高まります。


個人的には、これはコンサルティング全般にかなり使えるツールと思います。アンケート分析や顧客の声分析、コールセンターのログ解析なんかにも強力な武器となりそうです。今後、PentahoのETLツールKettleやデータマイニングツールWekaと組み合わせることで、さらに統合的なBIツールとして活用できる期待があり、当社でも様々な使い方を検討していきたいと思います。


2008年03月06日

ID情報の増加とデータマイニング

2月は毎年恒例の某企業向け長期研修があったり、体調不良によりダウンしたりと、なかなか時間が取れずブログを1か月ほどお休みしておりました。本日より再開いたしますので、どうぞよろしくお願いします。

今日はデータマイニングに関して感じていることを書きたいと思います。

マイニング技術は、10年以上前から流通・医療などでさまざまな研究が進んでいますが、最近は特にインターネット(OpenID)、ケータイ(GPS)、電子マネー、RFIDといったところから、マイニングを行うために必要なデータの整備が着々と整っていっている印象を受けます。

OpenID
OpenIDとは、元はSix apartの技術者が提唱したWeb全体で使える共通のIDです。従来のようにサイトそれぞれでユーザーが個人情報を入力し、IDとパスワードを管理する必要がありません。2006年ごろに提唱されて以来、YahooがGoogle等も団体に参加し始めたことにより、今後のサイトの認証では、スタンダードになっていくと思われます。
データ分析の観点からみると、よりユーザーのIDを一意に定義しやすくなり、たとえば「こんなブログのコメントを残している人は、こんなECサイトでこんな商品を買っている」なんていう傾向も見れるようになるかもしれません。

・GPS
GPSはすでに国の施策としても、ケータイに標準装備される方向にあり、これに関連した各種ビジネスが盛んに取りざたされています。データ分析的にも、位置情報というファクターが加わることで、さまざまな切り口で分析できるでしょう。たとえばタクシーの乗車降車位置データから、「3月の第一月曜日のこういった天気の日には、ここで乗車するお客さんが多い」という傾向もつかめるかもしれません。
来週、けいはんな学研都市で、ケータイ国際フォーラムが開催され、私も参加予定です。午後から各オープンラボツアーで、企業の研究所の見学も行います。また新たな情報があれば、このブログで紹介したいと思います。

・電子マネー
WaonやNanaco、Suica,Icocaなど電子マネーが着実に浸透しつつあります。データ分析の観点からみると、たとえば駅の売店で売られている新聞は、みんな現金で購入するため今まで、何が売れたかはわかっても、誰に売れたか分かりませんでした。これが電子マネーで決済するようになるにつれて、顧客のRFM分析が日用品などでもできるようになります。(ただ、どのように分析結果を活用するのかは別途検討が必要ですが)

KSKソリューションズでも、Pentahoの一部であるWekaを中心にデータマイニングサービスを行っていますが、事業としてはまだまだこれからです。マイニング技術をベースにしたWebサービスへの展開のため、異業種の方や大学の研究者の方々とも定期的にお会いして情報交換しています。一方で、IDデータの増加やマイニング技術の進展はプライバシーの問題も同様に考えさせられます。ビッグビジネスになるのか、ビッグブラザーになるのかは今後も議論の分かれるところです。

2008年03月25日

関学ビジネスマイニング研究センター

「もっとビジネスに役立つデータマイニングを」

こんなコンセプトで立ち上げられた研究センターがあります。関西学院大学の経営戦略研究科内にあるビジネスマイニング研究センターです。

先日、知り合いの方から、センター長の羽室教授、また副センター長の森田准教授をご紹介いただきお会いしてきました。1時間という短い時間でしたが、刺激的なお話ができ、またマイニングの活用方法に関して共感することも多く、貴重な時間になりました。

羽室先生は、関西学院大学大学院の教授で、有名な和製データマイニングオープンソースMusashiの開発者でもあり、最近では国の情報大航海プロジェクトでもご活躍されています。
森田先生は、大阪府立大学の准教授で、データマイニングの研究やマーケティング分析コンテスト等でも実績をあげておられる方です。

ビジネスマイニング研究センターでは、産学官連携を視野に入れて、さまざまなマイニング手法の開発、ビジネスへの展開を進めておられます。羽室先生曰く「日本のコンピュータサイエンスの研究者は結構優秀ですぐれたアルゴリズム等を保有している。しかし、ビジネスに使われないまま眠っているものが多い」とのこと。
これをビジネスに活用できるように技術を商品化していくのが、ビジネスマイニングセンターの役割ということです。

センターで開発されたデータマイニングエンジン「KD-Mod」のデモ、LCM超高速マイニングエンジンなどを見せていただきました。特に高速マイニングエンジンは面白いです。OLAPは「人の思考のスピード」で瞬時に軸を変えることにより気づきが得られますが、同様のことをデータマイニングでも行うことができます。いわば、OLADM(On-Line Analytical Datamining)でしょうか。

弊社のPentahoやWekaの取り組みにも興味を持っていただきました。
今後は、産学としてより良い協力関係を築いていきたいと思います。

2008年04月08日

その数学が戦略を決める ~The Super Crunchers~

%E3%81%9D%E3%81%AE%E6%95%B0%E5%AD%A6%E3%81%8C%E6%88%A6%E7%95%A5%E3%82%92%E6%B1%BA%E3%82%81%E3%82%8B.PNG
その数学が戦略を決める


話題になっているエール大学教授イアン・エアーズの著書「その数学が戦略を決める」を読みました。中心テーマは、「大量データの解析」。これがさまざまな意思決定に与える影響を具体例を示しながら、解説していきます。ワインの価値、野球(メジャーリーグ)、政府の政策決定、医療、教育・・・。今まで経験と勘で意思決定をしていた世界が、データに基づいた意志決定に変わっていっています。グーグルのVPが「政治的になるな、データを使え」といったように、今後益々、細かなデータが増えていく中で、企業としてデータを使えることは、大きな競争優位になっていくと思います。

以下、本の中で紹介されたいくつかのWebサイトを記載します。

・データ主導のお見合いサイト
eharmony

・データに基づく音楽紹介サイト
Pandora.com

・医療(統計調査)
Dynamed

・本のタイトルから成功を予測
lulu.com

2011年04月19日

「ビューティフルデータ」を読みました

オライリーから出ているビューティフルシリーズですが、この本では特に「データ」に絞って約20のエッセイが集められています。ソーシャルネット上のログデータ分析、クラウドストレージの設計等は言うに及ばす、火星探査機や、Radioheadのプロモーションビデオの3Dの映像作成、DNA-ヒトゲノム、行政、住宅市場、自然言語など、多岐にわたります。

普段はビジネス系のデータしか触れる機会がないため、DNAのデータ分析事例などは新鮮で面白いです。いきなり専門書を洋書で買うとなると敷居が高いですが、この本ではそれぞれの先進的なデータ分析のエッセンスが楽しめます。1つのテーマは10P~20P程度なので、普段出会わないいろんな事例に触れてみるのもよいのではないでしょうか?


2011年06月06日

1000 English Speakersでデータマイニングをスピーチ

知り合いの経営者が主催する大阪の起業家の勉強会に参加しました。『1000 English Speakers』とは、TechWaveさんからはじまったイベントで、「英語で世界に発信していく人を増やしたい」、「1000人が英語でプレゼンする機会を持てたら、日本の英語コミュニケーション力が上がるはずだ」という思いからスタートされたものです。

ほとんどがデータマイニングを知らない聴衆の方に、データマイニングをどのように説明したら良いか?結構チャレンジングでしたが、楽しかったです。Ustreamにも流されていました。


2011年09月24日

Rapid-I社訪問

ドイツ、ドルトムントのRapid-I社を訪問しました。Rapid-Iは、オープンソースのデータマイニングツール「RapidMiner」を提供する企業です。詳細は以前のポストをご覧ください。

オフィスは、ドルトムント大学のすぐ近くにあり、経験豊かな社員とコンピュータサイエンスなどを専攻している大学院生とのMixチームで、社内に活気があります。Rapid-I社は、まだ設立5年のベンチャー企業ですが、一昨年にRapidMiner5がブレークし、最近は非常に忙しいとのことです。

CEOのIngo氏は、かなり流暢に日本語を話します。(以前、日本語を勉強おり、東京から大阪まで自転車で旅行したこともあるとのこと)。ローカライズ中の日本語版RapidMinerにも少し興奮気味でした。

滞在中は、RapidMiner、RapidAnalyticsのテクノロジーやロードマップ、Rapid-I社のマーケティングの現状や課題、日本でどのように展開していくかなど、有益な情報交換ができました。普段のSkypeだけでは伝わらないところも、直接会って話すことで信頼感がでますね。

弊社でもさらにデータマイニング&ビジネスアナリティクスのビジネスを加速していきたいと思います。

006.JPG

007.JPG

About データマイニング

ブログ「Warm heart Cool mind」のカテゴリ「データマイニング」に投稿されたすべてのエントリーのアーカイブのページです。過去のものから新しいものへ順番に並んでいます。

前のカテゴリはオープンソースです。

次のカテゴリはビジネスと経営です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。