Not-So-News

ニュースにならないニュースを配信

Rでのデータ分析読み物として最高!「ビジネス活用事例で学ぶ データサイエンス入門」

社会人にとって、プログラミングを用いたデータ分析の手法について学ぶモチベーションを得るのは難しい。
なぜなら、普通の企業レベルで使えるかもしれないような、基本的なデータ解析は「分析ツール」等を用いてExcel上でほとんど実現できてしまうからだ。

 
したがって、データ分析の初歩を学ぶならば、(その人がExcelに慣れているのであれば、)Excelでやってしまう方が早い。

主成分分析だって、Excelでも一応可能ではある。たとえば、以下の本はそれを含むExcelで行うデータ分析について、基本的な事項から多少応用的な論点までを含んでいる。*1

 

だが、(上の本での主成分分析もそうだが、)用いたい分析手法が少しばかり高度化すると、途端に煩雑になってしまうのもExcel。
そうなると「R」や「Python」を用いたデータ解析の基本を学びたいという欲求は自然に出て来る。

とはいえ、「R」や「Python」を用いた解説本となると、プログラミング経験がない人にとっては、直感的に理解しにくい方法で実践することとなるような書籍が多いのが実状である。
(それが、たとえExcelだと直観的に理解しやすい類の分析手法であっても。)

しかも、こうした解説本では、読者に例題を設けて実践させることで、理解をさせようという構成になるのが一般的だが、ここでも初学者のモチベーションを阻害する問題が生まれがち。
多くの社会人を対象として、例題・設例を用意しようとすると、どうしても現場で使うイメージが湧きにくい例題になってしまうのだ。

サービス業の比率が増えてしまった現代社会に生きる現場の人々にとって、ネジ1個の重量の分布や、レジ1台あたりの待ち人数の平均を出す例題は、まさにそういった問題にあたるのではないだろうか。*2


であれば、自分とは関係ない他業種であっても、「Excelでは実行しにくい分析を、Rを用いて行う、現場に即したような設例を用意した解説本」に有用性はありそうである。
今回紹介するのはそういった本。

 

この本では、基本的なクロス集計や重回帰分析から始まり、終盤ではロジスティック回帰やk-meansによるクラスタリング、ランダムフォレストを用いた予測モデルの構築などを含む、Excelではさすがに実行しにくい分析手法を、ソーシャルゲーム開発現場でのストーリーに当てはめて紹介をしている。


「なるほど、こういう分析手法を、こういったロジックで現場に活かそうと検討するのか。」

ストーリーが比較的はっきりしているので、ゲーム開発などやらない普通のビジネスマンでも、各分析手法を自分の業務領域に応用するアイディアが浮かびやすくなっていると思う。

特に広範な顧客データを擁するIT・広告代理店の方だと、A/Bテストや顧客属性のクラスタリング等はイメージが湧きやすく、ぴったりの本ではないだろうか。


残念なところを最後に挙げるならば、Rコードの説明が不足してしまう点である。
分析ロジックを語るストーリー部分に力を入れた分、大型本にもかかわらず紙幅が足りなくなってしまったようで、dplyrパッケージの細かな部分や後半の機械学習パッケージなど、コードの詳細は控えめになっている。*3

よって、本書のRコードをダウンロードした上で、現場での活用ストーリーを読みながら、とりあえず該当部分をどんどんRで実行していくというのが良いだろう。
コードの詳細は後回しの方が読破率は上がると思う。

また、解説やロジックが強引に進められる箇所も多い*4が、「データサイエンス」本と思わず、コード付きの1つの読み物と割り切ろう。

研究心が出ちゃう人も、論理的思考に長けた人も、とりあえずコードを実行して、読み切ることに注力しよう。
「読み物」と思って読めないならば、然るべき学術本を手にすべきことになってしまいますよ。


上記のような読み方をするならば、Rによるデータ分析についての素晴らしい「読み物」である本書は、初学者から幾分学習経験のある方には、うってつけのものとなるのではないだろうか。

BOOK

*1:章ごとに執筆者が異なるため、行列の演算などを簡便的な説明に留めて解説を行う箇所があったりはするが、読んで分からない手法は使わない、で差し当たり読み進めれば良いとは思う。どうしても気になるなら初歩の線形代数本くらいは買う必要があるかもしれない。

*2:もちろん、こうした設例を通じて、それぞれの分析手法を自社に求められる分析に応用できないかを検討するのが基本的な立ち位置にはなるのだが、そんな能力を持ったビジネスマンなんてそうそういるもんじゃないと思う。

*3:どうしても知りたいならば、Google先生や、そこにも見当たらなければ「みんなのR」に聞いてみよう。

*4:

データサイエンスの本を買ったが一部アツすぎる内容で萎えた話 | JUMPERZ.NET Blog