【HBR May 2014】アナリティクス3.0

616a2778ae9c17219454eaeb6a49cb12_s

アナリティクスがビジネスに取り入れられるようになったのは、1950年代。
主に生産工程や販売、顧客などの企業内データの収集・分析をしたもので、意思決定のパフォーマンス改善に役立った。

Details »

Sequel ProからQNAPに接続する

スクリーンショット 2013-06-18 0.46.07

MySQLフロントエンド「Sequel Pro」があまりに便利過ぎるので、MacBookAir環境に作ったローカルMySQLへの接続を完了。
ローカルができたら、次はQNAPでしょ!ということで接続してみること。

事前情報としてSSH経由でアクセスしないと開通できない(?)的な情報があり、TerminalでSSH経由でアクセスを試みるも、「unknown variable ‘Enable=TRUE’」連発で正直ぶち壊してやろうかとも思いましたが、チマチマやっていました。

GoogleでSSH関連を検索しているだけで知識は身についていくもの。

再度、Sequel Proで設定を試みるもあっさり接続完了しました。

以下が設定。
本当に簡単です。

上記のように入力するだけ。

QNAPのMySQLへのアクセス方法を学んだということは・・・。
そう、VPNでアクセスすることも可能ってことに!(多分)

iPadやiPhoneのMySQLクライアント系アプリを使えば理論上はアクセスできるはず。

最近、統計解析をおこなっていてデータに関して異常な執着心を持ちつつありますが、いつでもデータベースにアクセスできる安心感たらないわ。
あとは会社のWiFiからVPNができれば最高なんだけど、今のところ方法がないのが悲しい(よって会社のPCの特定フォルダをQNAPと接続することもままならないわけです・・・)。

企業を数字で理解する

ある会社を理解するためには中に入らないまでも株式会社なら公に開示されているデータを把握すればある程度理解できる。
週刊東洋経済 2013/5/18号に会社を開示されている数字で理解するためのポイントと計算式が掲載されていたので引用。

【会社を数字で理解する5つの指標】
1.安定性
2.収益力
3.ROA
4.ROE
5.資金繰りと財務健全性

1.安定性
安定性の数字は3つ。
第一に見るべきなのは超短期の安定性指標。それは銀行が金を貸す時にみている、融資が回収可能かを判断する「手元流動性」。一般的な目安は大企業で1か月以上、中小企業で1.5か月以上。

手元流動性(単位:か月)=(現預金+換金しやすい流動資産)/1か月分の売上高
※換金しやすい流動資産・・・代表は、上場株
※売上高・・・1か月分の売上高は年間の売上高を12か月で割った平均を使うのが一般的

流動比率(単位:%)=流動資産/流動負債×100
※投資家が見る、株が無価値にならないための「流動比率」である。一般的な目安は120%以上。

自己資本比率(単位:%)=自己資本/総資産×100

【!】大事なのはこれら3つを上から見ていくこと。

2.収益力
収益力は収益や費用を売上高で割った数字で見る。
まずチェックするのは売上高が伸びているかどうかの「増収率」。

増収率(単位:%)=(今期売上高-前期売上高)/前期売上高×100
原価率(単位:%)=売上原価/売上高×100
※原価がどのくらいかかっているかを示す「原価率」。

粗利率(単位:%)=売上総利益/売上高×100
※どのくらい付加価値があるかの「粗利率」(売上総利益率)

 粗利率(単位:%)=100-原価率
 ※実は粗利率と現価率は裏腹の関係

 売上高-売上原価=売上総利益(粗利益)
 ※売上高から売上原価を引いたのが売上総利益(粗利益)だから。

売上総利益(粗利益)-販管費=営業利益
※粗利益から間接部門の費用である販管費を引くと本業の利益を示す営業利益になる。

売上高営業利益率(単位:%)=営業利益/売上高×100
※営業利益を売上高で割ると本業の利益率が出る。

3.ROA
財務諸表を読めるコツ
①目的を持つ ②比較する ③実践する

<収益力の見方>
収益力を見るためにはこの3つの見方で見る

ROA=利益/総資産 = 利益/売上高 × 売上高/総資産
              ※利益率     ※総資産回転率

5つの利益
①粗利益(=売上総利益)・・・会社が販売しているモノやサービスでどれだけ利益を稼げる力があるのか
②営業利益・・・本業で獲得した利益。本業の営業力がどれだけあるか
③経常利益・・・経常的な(通常の)活動で獲得した利益。正常な状態で稼ぐ力がどれだけあるか
④税引前当期純利益・・・税金を支払う前の利益
⑤当期純利益(最終利益、単に純益とも)・・・当期において最終的に獲得した利益

4.ROE
もっとも大事な数字はROE。3つに分解してみるのがコツ

ROE=レバレッジ比率×総資本回転率×当期純利益率
当期純利益/自己資本=総資本/自己資本×売上高/総資本×当期純利益/売上高

利益を生み出す仕組み
自己資本(株主の出資金など)  ⇒総資本
他人資本(銀行からの借入金など)(=自己資本+他人資本=総資産)

⇒売上高 ⇒当期純利益

財務3表一体理解法
①損益計算書(PL)の当期純利益がバランスシート(BS)の利益余剰金に加算される
②利益剰余金や負債、現預金などの資産が増減してもBSの左右の合計はつねに一致
③PLの税引前当期純利益はキャッシュフロー計算書(CS)の冒頭と一致
④CSの期末現金及び現金同等物はBSの現預金にほぼ一致(定期預金の扱いに違いあり)

5.資金繰りと財務健全性
資金繰りを示すキャッシュフローには次の3つがある。
◯営業キャッシュフロー(CF):本業で生まれた現金
◯投資キャッシュフロー(CF):機械設備の購入や売却など投資活動で出入りした現金
◯財務キャッシュフロー(CF):借り入れや返済などの財務活動で出入りした現金

投資が過大かどうかを知るうえで重要な指標がフリーキャッシュフロー(FCF)。
フリーキャッシュフロー(FCF)=営業CF+投資CF
※稼ぎ出したキャッシュの範囲内で投資していればFCFはプラス。
※営業CF以上に投資していればFCFはマイナスになる。

D/Fレシオ(単位:%)=有利子負債/自己資本×100
※財務健全性を知るにはD/Fレシオ(有利子負債自己資本比率)を見る。

棚卸資産回転期間(単位:か月)=棚卸資産/平均月商
※棚卸資産の回転期間が急に長くなるのは財務健全性が悪化する兆候。
※平均月商は1年分の売上高を12で割って求める。

西内啓一「統計学が最強の学問である」メモ

これから統計学を学ぼうとするにはうってつけの書籍。
タイトルからして希望を感じます。
金融系での活用が特に進んだ分野である統計学ですが、最近のトレンドであるITに関連して書かれているので入りやすいです。
まだ最後まで読んでいないので途中のメモになりますが、特に役立ったことを備忘。

1.「専門用語のざっくりとした解説」
①データマイニング
すでにまたっている大量データから、うまく価値のありそうな情報あるいは仮説を引き出すこと。またはそのための手法。細かい精度よりも速度が重視され、比較的単純な計算過程を繰り返すだけで成立する手法が好まれやすい。スーパーのPOSデータをデータマイニングした結果、おむつとビールが同時に買われている割がいが案外高かった、みたいなケースでよく紹介される。

②テキストマイニング
人間読むために書かれた(もしくは聞くために話された)フリーテキストを分析するやり方。言語学の手法が発展してビジネスにも応用されるようになった。形態素解析という文章を単語ごとにぶつ切りにするステップを経て、どんな単語が登場しているか、単語同士の関係性はどうか、みたいな分析がされる。

③Exadata
長年データベース業界でブイブイ言わせていたオラクル社が多額の買収劇を経て完成させたビッグデータ関連主力商品。ハード・ソフトの両面からうまいことデータを分散させて高速処理することに最適化させている。性能もすごいが値段もすごい。

④Greenplum
Exadataの競合商品オープンソース技術をうまく使っているためExadataよりは安上がりにスケールアップさせて巨大データが高速処理できる。

⑤分散処理
処理しきれない大量データでも100台のサーバに処理を振り分けて最後にまとめれば100倍速いはず、みたいな考え方。データの構造やアルゴリズム次第で「うまく振り分けて最後にまとめる」手間が異なるのが難しいところ。

⑥インメモリデータベース
データを読みだしたり書き込んだりする速度を高速化するために、ハードディスクやSSDではなくメモリ(RAM)上にデータを記録する。当然、電源が切れるとデータは消えるため、SSDとRAMディスクを組み合わせて弱点を補い合わせたりするという試みもある。余談だがインメモリと言う人とオンメモリという言う人がいる。

⑦Hadoop
データを分散処理するためのオープンソースのJAVAフレームワーク。分散処理の「うまいことする」部分を担っている。最近聞く大規模なデータの分散処理をしようとするソフトウェアのほとんどはHadoop上で動いているらしい。

⑧AWS
Amazon Web Serviceのこと。Amazonによるデータベースやデータ解析などのクラウドサービス。ビッグデータや分散処理に対応しているものもある。

⑨非構造化データ
オラクルはじめ従来の一般的なデータベース(リレーショナル・データベース:RDB)は「形の決まったキレイな表」と「表同士の繋がり」をもとにデータを保存したり検索したりしていたが、そういう形にまとめにくい、あるいはあえてまとめないデータ。

⑩NoSQL
RDBの処理はSQLという言語で記述されていたが、それとは違うやり方でデータを保存したり処理したりするやつ、という意味。

⑪KVS
Key Value Storeの略。RDBでは決まった形の表と表同士の繋がりという形で処理していたが、こちらは表の中身の値(Value)と値同士の繋がり(Key)、という形でデータを処理する。非構造化データを含む大規模データを分散処理するにも便利らしい。

⑫R言語
オープンソースの統計解析用言語。世界中の専門家が自由に解析手法のライブラリを作って公開している。有料ソフトを買えない貧乏学者たちが細々使っていたが、最近急に注目を集める。ExadataやGreenplumからも、さらにはSPSSからも直接Rのライブラリを呼び出したりできるようになった。

2.とりあえずデータの概観を掴むだけならまず数千〜1万件ほど抽出していじってみればいい
3.データ分析において重要なのは、「果たしてその解析はかけたコスト以上の利益を自社にもたらすような判断につながるのだろうか?」という視点。
4.データをビジネスに使うための「3つの問い」
【問1】何かの要因が変化すれば利益は向上するのか?
【問2】そうした変化を起こすような行動は実際に可能なのか?
【問3】変化を起こす行動が可能だとしてコストは利益を上回るのか?
5.死者・犯罪者・暴動を生み出す食べ物とは?
適切な比較を行わない一面的な単純集計がどれだけ愚かなことか。
<次の食べ物を禁止すべきかどうか考えてみましょう>
・心筋梗塞で死亡した日本人の95%以上が生前ずっとこの食べ物を食べていた。
・強盗や殺人などの凶悪犯の70%以上が犯行前24時間以内にこの食べ物を口にしている
・日本人に摂取を禁止すると、精神的なストレス状態が見られることもある。
・江戸時代以降日本で起こった暴動のほとんどは、この食べ物が原因である。
6.統計学における「A/Bテスト」は、ランダム化比較実験と呼ぶ。
AパターンとBパターンの条件の変え方にランダムが含まれていない実験は準実験と呼ぶ。
7.χ(カイ)二乗検定
「意味のある偏り」なのか、それとも「誤差でもこれぐらいの差が生じるのか」といったことを確かめる解析手法
8.p値
実際には何の差もないのに誤差や偶然によってたまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率のこと。このp値が小さければ(慣例的には5%以下)<中略>「この結果は偶然得られたとは考えにくい」と判断する。
9.適切な比較方法
「目指すべきゴールを達成したもの」と「そうでないもの」の違いを比較すれば良い
10.フェアではない
比較している集団が同じ条件ではないない場合、フェアではない、つまり比較できない。
11.フェアな状況下にする解決方法
①「関連しそうな条件」を考えうる限り継続的に追跡調査し、統計学的な手法を用いて、少なくとも測定された条件については「フェアな比較」をおこなう
②解析ではなくそもそもデータの取り方の時点で「フェアに条件を揃える」
12.統計学の父 ロナルド・A・フィッシャー著「実験計画法」
13.ミルクティの実験
「紅茶を先に入れたミルクティ」か「ミルクを先に入れたミルクティ」かを判別するための実験。
ティカップをずらりと並べ、ランダムで順番に調べる。
5杯をランダムに調べ、偶然にすべて当てる確率は2の5乗分の1、32分の1(約3.1%)、10杯すべて当てたならば1024分の1(約0.1%)。

<以降2013.2.20追記>
14.1億5000万ドル稼いだクレーム対応
ランダム化比較実験の別の意義の事例。
コンチネンタル航空の顧客対応方法にについての実験を実施。

【トラブルが起きた客をランダムに3グループに分類】
①「ただ正式な謝罪レターを送る」
②「謝罪レターに加えたプレミアムクラブへのお試し無料入会期間を与える」
③(比較対照として)「特に何もしない」

【結果】
③何ヵ月か経た後でもまだ怒っていた。
①②翌年コンチネンタル航空へ費やすお金が8%上昇。さらに好感度上昇。
②さらに、もらった顧客の3割が無料期間終了後も自腹で会費を払った
その後もトラブルが起こるたびに詫び状+プレミアムクラブへの案内を送り、1億5000万ドル以上売上増加。

15.人為的なランダム化実験
Aという文字とBという文字をランダムに3つ並べる実験。
「AAA」「BBB」という文字が3連続するのパターンは8パターン中2パターンあるがあまり選ばない傾向がある。

16.統計家たちの間で共有されている倫理的ガイドライン
①ランダム化によって人為的にもたらされる、どれか1つまたはすべての介入が明らかに有害である(またはその可能性が高い)場合はダメ
例)ナチスの人体実験
②仮にすべてが有害でなくても、明らかに不公平なレベルで「ものすごくいい」ものと、「それほどでもない」ものが存在していると事前にわかっている場合もダメ
例)ランダムな半数のがん患者にのみ効果的な薬を投与する

②の例外:一見して一方のグループにとって良いことでも、統計学的な実証が不十分でどちらが良いのかわからない状況がある場合はランダム化比較実験が正当化される。
例外の例①)一部の貧困家庭のみに家賃の補助券を配布
例外の例②)一部の失業者のみに仕事の探し方と面接の受け方を指導
例外の例③)一部の低所得者のみにベーシック・インカムを保証(所得が一定水準を下回ったらその水準に足りなかった額を支給)する

17.フィッシャーの疫学への反論
ランダム化比較実験をおこなっていない解析では、いくら「同様と考えられるグループ内で層別解析をした」としても、厳密に同様な集団間での比較なんてあり得ない。

18.疫学へのフィッシャーの反論の反論
90年代前半の主要な医学雑誌に掲載された論文を比較検討した結果、疫学研究から示されたリスクの大きさは「ランダム化比較実験とあまり結果に差がない」。

19.ダーウィンの進化論
・生物の個体は同じ種でも微妙に違う
・個体の特徴は親から子どもに遺伝する
・特徴の中には生存や繁殖に有利なものもある
・生存や繁殖に有利な特徴を持った個体は世代を経るごとに増加する(逆に不利なものは淘汰される)
・ただしどのような特徴が繁殖や生存に有利なのかは環境によって異なる

20.回帰分析
データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析。
こうした数式で記述される直線のことを回帰直線と呼ぶ。
こうした平均への回帰をゴルトンは「平凡への回帰」と呼ぶ。
後に「平均値への回帰」と呼ばれる。
実際のデータは理論上の推測よりも「平均値に近づく」という意味。

21.真値(しんち)
無制限にデータを得ればわかるはずの真に知りたい値。
たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで、無限にデータを集めることなく判断が下せる(フィッシャー)。

22.回帰分析の基礎用語
・回帰係数の推定値
 切片・傾き(x)ともにデータから算出された値だがあくまでデータに基づき「真値」を推定した結果だということに注意。
・標準誤差
 推定値の誤差の大きさ。回帰係数の推定値と比べて大きければあまり推定値は信頼できないが、この値自体を問題にするよりは後述の信頼区間で考えた方がよい。
・95%信頼区間
 「回帰係数が0」の場合だけでなく様々な回帰係数を想定して「p値が5%以下になる真値としてあり得ない値」とはならない範囲。「ほぼこの範囲内に真値があると考えて間違いない」と考えて大丈夫。
・p値
 仮に回帰係数が0だった場合にデータのバラつきのせいだけでこれぐらいの回帰係数が推定されてしまう確率。やはり慣例的には5%を上回ると「さすがに回帰係数0と考えるのはキビシイ」と判断される。

※まだ半分くらいしか読んでいないので、読了後に更新します。

GoogleDriveとGoodreaderの連携方法

GoogleDriveは共有するにはすごく便利です。
Googleアカウントを持っている人が多いからですね。
GoogleDriveを活用した提案書や分析データをチェックする方法について備忘しておきます。

①GoogleDriveにファイルを保存
②GoogleDriveにアクセスしてGoodreaderで開く
Goodreaderで開く理由はPDFの手書き編集に対応しているためです。
③Goodreaderでチェック後「open in > Flatten annotations > GoogleDriveを選択しアップロード」。
④GoogleDriveで先ほどチェックしたファイルをチェック済みフォルダへ移動

ちょっと面倒だなぁ。Goodreaderで編集したら上書き保存とかしてくれないかなぁ…

iPad 128GB Wi-Fi + Cellularモデルを買った

iPad 128GB Wi-Fi + Cellularモデルを購入しました。

普通に購入すると、月額5700円程度となり、想定していた5,400円ではありませんでした。
色々お店の人と話した結果、ひかりOneに同時加するオプションを使い、月支払価格を本体の分割払い込み(実質0円)でかつ月額3,000円程度に減額することができました。
このロジックは、今ひかりOneに加入契約を結び、購入時に約33,000円を一括で払うと本体代金に45,000円の助成金が付くので、月の支払いが電話回線+プロバイダー料金のみで購入できるようになります。
結果、家の電話回線はKDDIからNTTに変更になりますがネット回線代込みで月額3000円程度で光回線になり(これまでは7,000円くらい出してました)、iPad自体も33,000円で購入することができるようになりました。さらに回線も光回線でこれまでADSLだったので40倍の速度が出るようになります。
我ながらお得な買い物をした。

128GBも必要なのかについて検討してみましたが、仕事上のデータを蓄積していきたい用途を考え必要と判断しました。
「あらゆるデータを理解し、統計解析をした上で必要なアウトプットを出す」ことを目的に色々Appやアプリを選定していったので備忘しときます。

現時点のアプリは以下。
◯DataApps

ストレージApp名 容量(転送量) 対象 用途 使用法
GoogleDrive 5GB 共有 アウトプット保管 分析・企画データの結果を共有。チェックし再度保存。
Dropbox 2GB 個人 流動性の高いアーカイブデータ 最終結果や個人的な調査ファイルを保存。
SugarSync 5GB 個人 Dropboxバックアップ 最終結果や個人的な調査ファイルを保存。
Evernote 60MB/月 個人 収集データ蓄積 気になる情報をスクラップ
skyDrive 7GB 個人 データバックアップ 上記データの保存。最終的に自宅のNASに保存。

◯Remote
 LogMeIn・・・社内PCにアクセスする手段。簡単な作業しかできないので、クリックとか閲覧程度に利用。
 QMobile・・・VPN接続して自宅NAS内ファイルにアクセスする用
 RDP・・・未設定。iPhoneと比べてレンダリング速度が早いので設定次第では結構使えるのかも。
 FileExplorer・・・NASデータの閲覧。アップロードする手段を検討中。iPadのQNAP専用アプリはiPhoneと比べると手薄な印象。

◯ニュース
以下情報収集用。
GunosyはiPhoneで結構使ってるアプリなのでiPadが待ち遠しい。開発者の方たちも興味あるし。
Flipboard/NewsStorm/AppBank/Youtube/TubePlayer/Wikipanion/hulu/Gunosy

◯WorkApps
アウトプット系アプリ。
– スケジュール管理
 CalenMob/CALENDER
– 文書系
 OneNote/inFlowchartLite/7notes
– サーバ系
 FTPOnTheGo/WordPress/
– Processing系
 PR0C0D1N6
– イメージ系
 AdobeIdeas/NoteAnytime
– 映像系
 iMovie
– 音楽系
 BeatMaker2/

◯Browser
 chrome/iLunascape

◯Books
 Kinoppy/Kindle

◯SNS
 Twitter/Facebook/FlickStrackrXP

ということで、FLETSひかりはキャンペーン中です。
あの「高く、高〜く」ってやつですね。
要はネット回線も二年割ってやつでお得になるってことです。

iPadが本当に必要かシュミレートしてみる

iPadが必要な理由は、統計に基づいた分析をおこなう必要があるため。
データを蓄積し、データとの相関・因果関係を調べ、アウトプットするため。
いつでもどこでも。
最近、仕事と趣味が一致することが多く、仕事モードとかいうものに切り替えなくても興味を持てる仕事をしていると感じています。
4月以降にその仕事が本格化するため、それまでの準備をこの2・3月で完了しておく必要があります。
ということで、仕事での活用を中心に色々調べたiPad活用法をまとめてみることに。
まとめることで本当に必要か否かを検討してみる。

◯データ蓄積
– GoogleDrive・・・基本データ/解析結果データ/共有用データなど流動性の高いデータ
– SkyDrive・・・月間データ/官庁統計データなど定期的なデータ
– Evernote/DropBox/SugarSync・・・個人的なデータ保管
◯ローカル保存
– GoodReader・・・ネットが使えない環境でも使えるように保存。128GBもあれば大抵は保存できるので、これをメインに使う。
◯アウトプット
– GoodReader・・・PDFを編集できる機能が良い。アウトプットをPDFで統一してチェックする流れが理想。
– SoundNote・・・音声を記録しながらテイクノートできるらしい。
– Microsoft OneNote for iPad・・・無料なのが良い。けどビジネスユースだと1300円かかるらしい。
– Note Anytime・・・手書きでさらとかけるのが良い。
– inFlowchartLite・・・フローチャート書き。
◯リモートデスクトップ
– Chromeブラウザ・・・簡単とのことでタッチ時差もないとのことだけど・・・。
– iRdesktop by Thinstuff・・・参考に。
– iTap mobile RDP by HLW・・・評価高し。値段も1000円と。
◯制作
– Adobe Photoshop Touch/Adobe Ideas・・・イメージ作成
– Textastic Code Editor・・・コーディング

インプット系はどうもイマイチダメそうな予感。
タッチタイピングがいけそうなイメージだけど、iPhoneのあのダメな感じが頭をちらつく。
アウトプット系は期待が大きい。GoodReaderの存在唯一の救いか。
リモート系はどこまでいけるのか実験したい感じ。PCでつないだChromeのあのモッサリ感は忘れられないので、リリース直後だったからなのかなぁ。多少改善されてるかも。

うーん。

とにかく買うか。

Apache Hadoopについて

ビッグデータを調べていると出てくるHadoop。
下記にまとめられていたので参考にしてみた。
昨年までの動きと2013年のトレンドが見えてきた。
要は、Hadoopは勉強するに足るDBであるということ。
リアルタイム性は今後考えていかないといけないけど。

参考:builder「Hadoop、NoSQL、PostgreSQL、インメモリDB–2013年ビッグデータ技術の注目ポイントはデータベース

【導入メリット】
◯オープンソースのHive、Pig、Zookeeperなどで構成されるエコシステム
◯エンタープライズでの利用に最適化されたCloudera、MapR、Hortonworksなどのサードパーティ製のディストリビューション
◯国内外を問わず大規模なHadoop導入事例が多い

【導入デメリット】
◯並列でバッチ処理することが得意
◯ビッグデータ分析でニーズが急増しているリアルタイム処理、アドホックなクエリ検索などにはあまり向いていない
◯MapReduceの習得が難しいため、専門のスキルをもった技術者が育ちにくい

【デメリット補完方法】
大手ITベンダでは自社のデータプラットフォームとHadoopを統合し、データの収集はHadoopで、分析はRDBMSで行うシステムを売りにしているところが多い。

ついでに、ちょっと知識のなかった、NoSQLについてもメモ。

【NoSQL】

“目的特化型データベース”と呼ばれることが多く、ソーシャルメディアやソーシャルゲームなど大量のアクセスが頻繁に発生するBtoCサイトでの事例が中心で、業務アプリケーションには適さないという考えが主流だった。
これはNoSQLがスケールとパフォーマンスの向上を重視するために、データアクセスの方法に制限を加え、さらに一貫性の維持に対する要求を「最終的につじつまが合えばいい」というところまで緩和していることに起因する(例を挙げれば、Facebookの「いいね!」ボタンを押してページが更新されるまでに数秒以上かかっても大きな問題はない、という考え方)。

内容が専門的過ぎてこれもかなりの勉強が必要。

散財したデータの収集と格納。それらのデータマイニングと抽出。そして解析からのモデル構築からのモデル評価。
そしてデータクレンジング。
この過程の全てに精通することはちょっと時間がかかるけど、ひと通りは学習しても損はないか。
まずはRを中心とした統計解析から学習か。

データソースとCC表示まとめ

データソースを漁っていると公共機関のサイトにあたるのですが、便利なまとめサイトがありましたので参考にさせていただきます。
権利関係のことも記載されていたのですごく勉強になりました。
参考サイト:「奥村 晴彦 (Haruhiko Okumura) データ作法

政府統計の総合窓口(e-Stat)
利用にあたって」の「1.著作権について」によると以下のように商用目的での複製を禁止している記述があります。
商用目的の利用が企業における利用を制限するものか否かは再調査が必要なわけですが、独自(自社内)のマーケティング目的ならありなのかな(?)

1,「政府統計の総合窓口(e-Stat)」(以下、「当サイト」といいます。)に掲載されている個々の情報(解説文、統計表、グラフ、図など)は著作権の対象となっています。また、当サイト全体も編集著作物として著作権の対象となっており、ともに日本国著作権法及び国際条約により保護されています。
2.当サイトの全部又は一部については、私的使用又は引用等著作権法上認められた行為として、出所を明示することなど適切な方法を用いていただくことにより、引用、転載、複製を行うことができます。
3.商用目的で複製する場合は、予め個々の情報に関する著作権を有している各府省等までご相談下さい。

そこで、データのオープン化も進んでいるとのことで、以下のサイトが紹介されています。
Data.gov(米国)
data.gov.uk(英国)
Open DATA METI(日本)
オープンデータトライアル(流山市)
データシティ鯖江(鯖江市)

以下、クリエイティブ・コモンズ表記一覧を備忘。

【クリエイティブ・コモンズ表記一覧】
以下4種類の組み合わせ
(16通りから不適合な組み合わせ5通りからby表記ナシ5通りを除く6通りが通常使用される)
◯表示(Attribution, BY)
作品を複製、頒布、展示、実演を行うにあたり、著作権者の表示を要求する。
◯非営利(Noncommercial, NC)
作品を複製、頒布、展示、実演を行うにあたり、非営利目的での利用に限定する。
◯改変禁止(No Derivative Works, ND)
作品を複製、頒布、展示、実演を行うにあたり、いかなる改変も禁止する。
◯継承(Share Alike, SA)
クリエイティブ・コモンズのライセンスが付与された作品を改変・変形・加工してできた作品についても、元になった作品のライセンスを継承させた上で頒布を認める。

除いた組み合わせが以下

◯表示 (by)
◯表示 + 改変禁止 (by-nd)
◯表示 + 継承 (by-sa)
◯表示 + 非営利 (by-nc)
◯表示 + 非営利 + 改変禁止 (by-nc-nd)
◯表示 + 非営利 + 継承 (by-nc-sa)

例として表示(BY)ライセンスは原作者の表示をする限り商用利用であっても共有や改変(二次創作物の製作)が許容される。<Wikipedia「クリエイティブ・コモンズ・ライセンス」より>

データサイエンスとその組織化について

ds_Graph

ビッグデータ時代に突入。
生活がデジタル化していくにつれて、データを蓄積するように(できるように)なった。
それらの蓄積されたデータは、様々な形式で保存されてきた。
ネットではアクセスデータとして、お客様の属性データとして、あるものの使用頻度、荷物の集積・配送・受取情報など。それらデータは、個々に存在し、社内であっても交わることがなかった。
なぜならそれらデータの統合的な価値について多くの人が気が付かなかった、あるいはこれほどまでにデータが蓄積できるようになるとは想像できなかったからにほかならない。
蓄積されたデータの多くは短期的に消費され、長期的(4年以上)な視点からは無価値で物として廃棄または静かに保管されてきた。
これからは埃の被ったそれらのデータを整理し、精査、解析し、毎日蓄積された数キロバイト程度のテキストデータを数ギガ、数テラの一つの形式の価値ある情報に変容させようとすることがこれからの時代でしょう。

ということでデータサイエンスとデータサイエンティスト、その組織化についてまとめてみます。

1.データサイエンティストとは

米国マッキンゼーの試算によると、米国では2018年には14万人~19万人不足すると言われている今注目の職種であるデータサイエンティスト。
データサイエンティストとは、企業内外を取り巻く大量のデータを分析し、そこからビジネス的価値を生み出す役割を担う専門職種であり、経営や事業開発等に関するビジネスノウハウ、数理統計等分析技術に関する深い見識、基盤やプログラミングスキル等ITスキルといった幅広い知識が必要とされる職種です。
EMC「データサイエンティスト 育成トレーニングコースについて」より

さらに、EMCで設置している育成コースの項目は以下。

【EMC データサイエンティスト 育成トレーニングコース内容】
1日目:ビッグデータ分析入門+データ分析のライフサイクル
    Big Dataの概要/分析実務の現状/データサイエンティストとは/業界別のBig Data分析/データ分析のライフサイクル
2日目:データ分析の基本~「R」を使って
    R言語の基礎知識/データの調査と分析/モデル構築と評価理論
3日目:ビッグデータ分析入門+データ分析のライフサイクル
    K平均法クラスタリング/アソシエーション・ルール/線形回帰/ロジスティック回帰/単純ベイズ分類機(Naive Bayesian Classifier)/決定木/時系列分析/テキスト分析
4日目:ビッグデータ分析入門+データ分析のライフサイクル
    非構造化データの分析(MapReduceとHadoop)/Hadoopエコシステム/In-database分析 – SQLの要点/In-database分析で活用するSQLとMADlib
5日目:ビッグデータ分析入門+データ分析のライフサイクル
    分析プロジェクトの実施と運用/最終成果の作り方/ビジュアル化のテクニック/課題チャレンジ/データ分析ライフサイクルの適用業務(ケーススタディ)

2.データサイエンティストに必要な素養
データサイエンスをおこなう組織作りとして、素養のある人材を集める必要がある。

【データサイエンティストに必要な素養】
彼らの能力の特定/企業に興味をもたせる/生産的に働いてもらう…

「かれらの能力の特定」について、未だ定義されていない状況。なぜなら、ビッグデータの解析の必要性はわかっているが、どのような能力が必要なのかが定義されていない状況がある。
企業が持つビッグデータをどのように活用していくかの定義とそれに合わせた特定企業マイズされた必要能力の定義付けに基づいた人材集めが必要。

3.データサイエンティストの種類
「セクシーなデータサイエンティストになるまで5年かけていい〜EMCジャパン「第2回 データサイエンティスト・ワークショップ 2012」」レポート
http://ascii.jp/elem/000/000/750/750544/

リクルートテクノロジーズ ビッグデータグループ
シニアアナリスト 西郷彰氏

◯コンサル型・・・事業現場に近いところで課題設定や具体的な施策を示す
◯エンジニア型・・・データマイニングや機械学習の結果を基にサービス品質の向上を目指す
◯性質の異なる2種類のアナリスト、そして事業担当のマーケターの三位一体で、最適なデータ活用を日々検討している

西郷氏はデータ分析者へのメッセージとして、資質やスキルについて説明した。西郷氏は、Facebookのデータサイエンティストの募集要項によると、データ分析の豊富な経験や多様なデータソースへの理解、分析ツールやスクリプト言語、データベースなどの技術的知識や経験などが求められると紹介。さらに著名なビッグデータの書籍ではコミュニケーション能力や企業家精神、好奇心なども必要な資質として書かれているという。データサイエンティストへの道は、「けっこう厳しいです」(西郷氏)というのが実態だ。

長い時間をかけて、分析、ビジネス、テクノロジーなど必要な能力をまんべんなく高め、「能力の面積を拡げていく」ことが重要。

4.データサイエンティストとデータアナリストの違い
IT技術者も知らないと損する「データサイエンティスト」というお仕事~CROSS 2013レポート


「Albertが定義するデータサイエンティストとデータアナリストの違い
(上村崇氏の講演資料より)」

5.データサイエンティストのワークフローモデル比較
ワークフローモデルは各社出ているので比較。
現在日本では、「Sample, Explore, Modify, Model and Assess」が主流。これをベースに組織づくりをおこなう必要がある。繰り返すが、このモデルは基準であってデータサイエンスをおこなっていくフローは一つではなく、特定企業マイズされていく必要がある。やがて一般化することで、サンプル数が増えていくことにより定義付けをおこなう必要はある。

ステージ/手法 Cross-Undstry Standard Process for Data Missing The Knowledge Discovery in Databases process Sample, Explore, Modify, Model and Assess
フェーズ
構築概要
– DaimlerChrysler, NCR, OHRA, SPSSなどが参加するコンソーシアムで開発された方法論
– データマイニングプロジェクトを進める標準的な手順が6つのフェーズに分解されている
– Fayyad et al.(1996)によってまとめられたデータマイニングのプロセス
– データマイニングにより知見を導き出すための手順
– SASにより構築された、5つのステップからなるデータマイニングツールの導入手順
– 現在では、データマイニングの一般的な方法論とみなされることも多い
フェーズ
(ステージ)1
ビジネスの理解
(Buisiness Understanding)
データセットの選択
(Selection)
データサンプリング
フェーズ
(ステージ)2
データの理解
(Data Understanding)
データの前処理
(Pre-processing)
データ間の関係性などの探索と理解
フェーズ
(ステージ)3
データの準備
(Data Preparation)
データの変換
(Transformation)
変数の選択・合成・変換
(モデリングの準備)
フェーズ
(ステージ)4
モデルの作成
(Modeling)
データマイニング
(Data Mining)
モデルの作成
フェーズ
(ステージ)5
モデルの評価
(Evaluation)
解釈と評価
(Interpretation/Evaluation)
モデルの(信頼性や有用性の)評価
フェーズbr />(ステージ)6 モデルの展開
(Deployment)

6.まとめ
・データサイエンス、データサイエンティストの領域はまだ定義されていない。
 ⇒単なる技術屋の一つにもなれるし、マネジメント分野にもなれることができる
・データを解析し、説明する技術が必要。
 ⇒数値を読み解き、さらに説明する能力。技術+話術が必要。
 ⇒これまでは分業化されていたスキルの統合。特化した人材はこれまでにいない。
・高い解析能力(プログラミングスキル)とアウトプットできる人材
 ⇒これまでウェブディレクションやプログラマー、デザイナーをやっていたような人間が適している。
 ⇒現場では専門に特化しているだけでは使えない。プログラマーがデザインを。デザイナーがプログラミングを学ぶ必要がある現状の延長上にある。
・モデルケースが十分ではない。だからその企業マイズされた組織作りを早急におこなう必要がある。

統計解析基礎まとめ

統計解析を勉強中。
データみたいな無機質なものをビジュアライジングしていくことのプロセスからアウトプットまでしていくことが昔から好きで、仕事の流れとも相まって必要性が高まっているためです。
統計解析の基礎を学ぶと「知っている」と「知らない」では全然効率が違うな、ということがわかってきます。
マネージャーがそれを知らないことで部下に無駄な時間を強いてしまうということ。
現時点では、RやPythonの必要性を感じていないくらい無知な状況です。この状況を打開するために無知から知にし、統計解析分野からデータサイエンス分野に移行していこうと思います。
まずは統計解析についてまとめてみたい。

1.データの種類
 (1)数量データ・・・単位があり、数えられるもの(定量的)
 (2)カテゴリデータ・・・比べることができない(定性的)

2.4つのS
 データを正しい手順で効率よく集め、分析していくための4つの注意点のこと。
 (1)採集・・・必要なデータを正しい手順で効率よく集めることが大切
 (2)視覚化・・・関数や分析ツールを使う前に、グラフや表を作成して視覚的にデータを把握する
          ⇒極端に外れたデータがないかどうかを確認
          ⇒データ分析をおこなう前に、仮説を立てる
 (3)層別・・・様々な角度からデータをみていく
 (4)相関・・・相関関係と因果関係は違う。データ分析をおこなう上で狂いが生じるので検証が必要

3.度数分布表
 データ区間の各区間に入る数をまとめた表。ばらつき具合を確認し、データ全体の分布を把握するために用いる。
 【度数分布表に必要な数値】 []内は関数名
 (1)データの個数 [COUNT]
 (2)最大値、最小値 [MAX][MIN]
 (3)範囲・・・[MAX] – [MIN]
 (4)区間の数
    ヒストグラムのグラフの棒の数
    平方根を用いる。データの個数のべき乗。「(データの個数)^0.5」
    「スタージェスの公式」などでももとまる。
 (5)区間の幅
    1つの棒グラフで、どの値からどの値までを範囲とするかを決める幅のこと
    「(3)範囲 / 区間の数」

  ◯はじめの値のもとめ方
   第1区間の下側境界値 = 最小値 – 測定単位 / 2

4.代表値 []内は関数名
 データの中心をつかむための値。
 平均値・・・極端な数値の大小に左右される [AVERAGE]
 中央値・・・極端な数値の影響が少ない [MEDIAN]
 最頻値・・・出現率が最大の値 [MODE.SNGL]
・分散・標準偏差
 データのばらつきをみるもの。
 データのばらつきとは、平均値との乖離状況。
 ◯分散・標準偏差
  どちらも数値でデータのばらつきを示すもの
 ◯標準偏差
  抽出したデータのばらつきを示し、数値が大きいほどデータのばらつきが大きいことになる。
 ◯分散=標準偏差^2

5.解析の進め方
 手順(1)分散・標準偏差を求めるためにデータ収集する
 手順(2)平均値を求める
 手順(3)分散を求める
      無限母集団・・・標本数が無限の集団
      有限母集団・・・標本数が有限の集団

      ◯母分散
       母集団の分散で全てのデータのバラつきを把握する
       母集団の平均はμとなる。
      ◯標本分散 [VAR.P]
       いくつかのデータを全体の中から標本として選んで、そのばらつきを把握する
      ◯不偏分散 [VAR.S]
       母分散を推定するにはデータ数から1を引いた不偏分散を使用。
       標本分散より値が小さくなるので、分数の値が標本分散より大きくなる。

      ⇒母分散を推測するためには、不偏分散を用いる。標本分散では分散が小さく把握しずらいため。
 手順(4)標準偏差 [STDEV.S]
      標準偏差=分散^0.5
      値は「±」でもとまる。

 手順(5)まとめ
      1>平均値をもとめる [AVERAGE] [MEDIAN] [MODE.SNGL]
      2>分散をもとめる [VAR.S]
      3>標準偏差をもとめる [STDEV.S]

6.基本統計量
 より多くの情報を数値的にとらえデータの特長を探る
 手順(1)基本統計量を求めるためにデータを収集する
 手順(2)正規分布を把握する
      平均値を中心として、平均値より小さい範囲も大きい範囲も左右対称にばらつきがある分布
 手順(3)基本統計量を求める
      平均 [AVERAGE]
      標準誤差 [STDEV] [SQRT]
      中央値 [MEDIAN]
      最頻値 [MODE.SNGL]
      標準偏差 [STDEV.S] [SQRT]
      分散 [VAR.S]
      尖度 [KURT]
      歪度 [SKEW]
      範囲 [MAX]-[MIN]
      最小 [MIN]
      最大 [MAX]
      合計 [SUM]
      標本数 [COUNT]
 手順(4)基本統計量の結果から特徴をとらえる
      ◯データが正規分布に従っているか
       正規分布となっていれば確率で表すことができる
      ◯ばらつきの大きさをみる
       外れ値の可能性やばらつきの原因を探るヒントになる。

7.そのほか
 そのほかの関連計算式とか用語など。

 (1)相関係数 [CORREL] ※変数が2つの場合にのみ使える関数。3つ以上の変数は分析ツールを使用。
  データ同士を比較して関係性の度合い。
  -1 < 0 < 1 の範囲の数値。   ◯相関判定の目安      〜 0.3未満 ほぼ無相関    0.3 〜 0.5未満 非常に弱い相関    0.5 〜 0.5未満 相関がある    0.7 〜 0.5未満 強い相関    0.9 以上     非常に強い相関  (2)単回帰分析     y = ax +b     回帰係数 a / 切片 b  (3)重回帰分析     y = a + b1x1 + b2x2 + b3x3 + b4x4 + ... + bkxk     切片 a / 係数 b  (4)変数減少     回帰分析の出力結果から以下を計算。     説明変数ごとの影響度を求め、どの説明変数を採用したときが最適なモデルとなるかの調査。     tの値が小さい説明変数を削除し、回帰分析を続ける。     求めた回帰式の中で、説明変数選択基準Ruが最大になる説明変数の組み合わせを最適な回帰モデルとする。     Ru = 1-(1-重相関R^2)*(観測数+回帰+1)/(観測数-回帰-1)    [そのほかの選択基準]     ・自由度調整済決定係数     ・AIC(赤池の情報量基準;Akaike's Information Criterion)     ・Rh(芳賀・竹内・奥野の基準)     ・Cp(Mallowsの基準)  (5)コンジョイント分析     直交表。効率よくマーケティング・リサーチする手段。     ※フォーマットは今度作ろう

%d人のブロガーが「いいね」をつけました。