「数式を使わないデータマイニング入門」読了
「数式を使わないデータマイニング入門」を読んだ。
本の途中で、思わず作者のプロフィールを見た。1972年生まれ。なるほどなー。それが第一の感想。統計データ例に、随所に遊び心が。遊び心っていうより、ほとんど「遊び」だ。クラスタ分析の説明例で「モビルスーツを分けてみる」と称して、ガンダムやザクを分類していたのには笑った。まあ、わかりやすくてよかったが。スラスラ読めた。
で、内容の方はというと、薄いというか、軽いというか、「明日から使える実践的テクニック」みたいなものは何一つないような気がした。もっとも、これは仕方のないことであるが。「数式を使わない」と断っている通り、これは「データマイニング」なるものの考え方の基礎を理解するための本であって、それ以上のものではない。
実際例も、「失敗例」みたいなものの方が多く、どうやったら正しい結果の「データマイニング」ができるか、というような説明は乏しい。
ただし、「なぜ今、データマイニングなのか」という導入部は、一見の価値があったと思う。
メモリやハードディスクの単価が劇的に下がり、膨大なデータがコンピュータ内に蓄積されている。それに呼応するようにここ数年、Googleを筆頭にしてファイルを探し出す「検索技術」が発達した。そもそも、マイニングとは「採掘、採鉱」といった意味だそうだ。データマイニングの知識があれば、一見ムダとも思われる膨大な社内データ、そして無数にあるインターネット上のホームページの中から「砂金」を採掘できるかもしれないというハナシは、説得力がある。
データマイニングとは、社内に蓄積されたデータ資料をソートし、必要ならネット上に膨大に散らばっているデータをGoogle、RSS、ブログ検索などで抽出したデータ結果なども組み合わせることによって、各種企画、ユーザ層の定義、媒体選び、コピーライティング、アドワーズやSEOでどのようなキーワードで閲覧者を集めるかなどを、(これまでのように「カン」ではなく)データに基づいて行うようにすることだと理解した。そうすることで、商品やサービスをより正確にヒットするようにもっていこう、仮に間違った結果を招いたとしても、その間違った原因をさらに分析し、不要なデータは削除し必要なデータを付け加え、トライアンドエラーを繰り返す。データマイニングって、SEOと同じだなと思った。
特に「知識やカンに頼るのではなく、データを分析して」っていうのが重要で。正確には、「データの分析」という行為にも知識やカンは必要なんだが、それはこれまでの知識やカンとは少し違う種類のモノなので、気をつけなくてはならないだろう。
非常に極端な具体例でいうなら、たとえば今後のコピーライターに必要な知識は、「いかに正しい日本語を使用するか」よりも、「ターゲット層はどのような間違った言葉で検索を掛けてくるか」(ということを、データから導き出せるか)の方になるかな。「正しい日本語」は、正しい日本語の教科書を勉強すればいいわけだが、「どのような間違った言葉を使うのか」なんて教科書は多分、ない。それは、データから導き出すしかないんだと思う。