データ定義の重要性について

先日、データ分析について話す機会がありました。その際に良い例を思い出したので、ここに書いておきます。

前々から「データ分析を行う人間は、そのデータの生い立ちまで含め熟知すべき」と伝えていましたが、話をしても「本当にわかっているのだろうか?」と疑問に思うことが多いです。これは過去の実際例ですが、ある意味わかりやすいと思いますので、書いておきます。

皆さんの会社の中では「管理会計」をとっているところもあると思います。この「管理会計」では人的リソースがどのプロジェクトに配分されたのかを記録する必要があります。早い話「原価」を定めると言うことですね。

「自分の人的リソースをどこにどれくらい配分したのだろう?」ということなので、「Aプロジェクトに何%配分」とするわけです。

で、問題なのが、これと「労務管理」をごっちゃにするケース。早い話「朝〇時に出勤した。」「〇時から〇時まではAプロジェクトの作業をした」という記録です。

何が問題なのか?というと、どちらの行為も「Aプロジェクトへの時間配分」と見かけ上見えると言うことです。DBへの定義書だとそう書かれてしまうことも多いですね。

ですが、よく考えてみてください。後者は明らかに「経過した時間」だけの記録です。ですが、実際には、同じ密度で時間で仕事をしているわけではないので、「感覚的にはAプロジェクトには〇割くらい自分のリソースを割いた。」と考えるわけです。(場合によっては、管理会計上の収益バランスを調整するために原価をいじる=リソース配分をいじる こともあります。)

勘の良い人であれば、ここでわかると思いますが、「表上同じような定義に見えるけど、その目的によって、そこに記録される情報は全く異なるものになるかもしれない。」と言うことなのですね。それを「プロジェクトごと時間配分」という表上のタイトルだけ見て分析することの危うさがわかると思います。

そして、それを入力している人たちの認識がずれていれば、そのデータの精度は・・・?そこから得られた分析結果の説明力は?

統計やツールばっかり使っている人は、「Rスクエアがなんたらかんたらとか」「相関係数が○○とか」そんなことばっかり見ているわけです。

そもそもそのデータがどういう手段で生成され、どういう目的で利用されるのか?それを理解せずに「項目」だけを見て分析した気になっている・・・。特に今の世の中、データは簡単に取れ、保管、管理できるようになったからなおさらです。

本当のデータアナリストはここから見なければならないということ。統計学、ツールにだけ長けている人は「データアナリスト」ではなく「ツール使い」だと揶揄しているわけです。

とかくDBに入っている瞬間になぜか「正しい」と思い込む人が多いんですね。