以前に【統計学について】という記事を書きましたが、実際に仕事をしていく上でこれらの用語を知っているだけでは、実際にデータを整理して纏めることができません
そのためにツールなどを活用してデータの整理をする必要があります
また、統計学を学ぶ目的としては、仕事で扱うデータの整理を行うためなので、ツールの作成方法や操作などを理解するのが大切かと思います
一般的に仕事をするなかでデータ整理や表計算などを行うのはエクセルが主だと思うので、エクセルに関して使いそうなところを書いていきたいと思います
データをどのように整理する?
まず、データを集計、整理するためにはどのように整理するか考えないといけません
いきなりエクセルでデータ整理しようとしてもどうやってまとめよう?と躓くことがあるかと思います
私も「いきなりエクセルにデータをまとめろ!」と言われても
「無理です」としか言い返せません
では、データ整理をしていく中でまず考えることは、
このデータをどうやってまとめよう?
と考える必要があります
データを整理する目的から考えてみてください
自分のために
見やすくするためにデータを整理する
データを検索しやすくして、仕事の効率化
データの相関性を確認して、従業員の状態を把握する
他者のために
プレゼンテーションの資料を作成する
社内に情報共有するためにデータをまとめる
他の人にデータを見せるときには、理解しやすくするためにグラフや表まで意識してまとめていく必要があるかと思います
逆に、自分用にデータを整理する際には必ずしもそれらが必要ではなく仕事を正確に簡単に終わらせることを考えればよく、自分の見やすさを考えればいいです
これらを意識していくと、どのデータをどのようにまとめていくか見えてくるかもしれません
よく使う関数
今回は前回記事で触れた「平均値」「中央値」「標準偏差」と集計でよく使う「合計値」について簡単に説明したいと思います
合計値
データ値を合計して集計する際に、よく使われているのはSUM関数だと思います
=SUM(〇〇:〇〇)
SUM関数は多くの方が使い方を理解していると思います
では、SUBTOTAL関数との使い分けはしていますか?
エクセルでデータを集計していく際に、合計=SUM関数だけで覚えていると
「小計を重複して計算してしまう」
「フィルターで項目で表示した部分だけを計算したい」
という問題がでてきます
そのときはSUBTOTAL関数を使用してください
SUBTOTAL関数で計算した結果は、SUBTOTAL関数で重複して計算に含めません
=SUBTOTAL(集計方法,参照先1,参照先2,…)
集計方法には次のようなものがありますが、全部を使うことはあまりないかなと思います
一般的に「合計」「平均」がよく使われるかなと思います

合計したい場合は次の関数だけ覚えておいてください
=SUBTOTAL(9,〇〇:〇〇)
実際にエクセルで計算した場合のSUM関数とSUBTOTAL関数の違いは次ののようになります
SUM関数の場合だと、合計の値がおかしくなります

平均値
平均値はAVERAGE関数を使うか、小計なども考慮して上記のSUBTOTAL関数を使うかになるかと思います
SUBTOTAL関数を使う場合は集計方法の数字を「1」としてください
=AVERAGE(〇〇:〇〇)
=SUBTOTAL(1,〇〇:〇〇)

中央値
前回の記事で説明しましたが、中央値とはデータを並べたときに中心にとなる値です
エクセルで求める場合は次のようになります
=MEDIAN(〇〇:〇〇)
標準偏差
標準偏差は前回記事【統計学について】で少しで説明しましたが、データのばらつきの大きさを表す指標となります
エクセルで求める場合はSTDEV関数を使います
ただし、関数にはSTDEV.P関数とSTDEV.S関数があります
エクセルのヘルプを見ると
STDEV.P関数は
「引数を母集団全体であると見なして、母集団の標準偏差を返します」
STDEV.S関数は
「標本に基づいて予測した標準偏差を返します」
と書かれています
私も初めは何言ってんだ?って思いました
つまりこういうことです
STDEV.P関数は
「選択したセルをすべてのデータとして、標準偏差を求めます」
STDEV.S関数は
「選択したセルのデータをもとに、すべてのデータを推測して標準偏差を求めます」
そのため、一般的に使用するのはSTDEV.P関数でいいと思います。
STDEV.S関数を使用する際は、一部のデータしかないという条件のもとで使用するものなので、統計に必要なデータ量に注意して使用してください
エクセルで求める場合は次のように入力してください
=STDEV.P(〇〇:〇〇)
おまけ:標準偏差についてもう少し詳しく知りたい人用
前回の記事においても標準偏差の式は載せていませんでした
計算式や計算過程を見ても難しくないですか?
覚える大変だし、面倒臭くないですか?
中学生、高校生の頃はテストのために必死になって公式覚えた記憶があります
しかし、大学の入学して初めの頃に講義の中で言われたのが、
「公式は覚える必要はない、調べればでてくるから」
「本当に学ばないといけないのは式の意味だ」とのこと
その通りだと思います
必要であれば調べればいいです
忘れたら調べればいいです
その式を見たときに何を求めたいのか理解できるのがベストだと思います
それでも、難しくてわからない、理解できないという人は見なくて大丈夫です
わからなくても、エクセルで関数を入力すればでてきますので!!
では、標準偏差を求める式は次のようになります

平方根の中身を見ると分散を求めていることがわかります
では、分散とは何かとなりますが、
分散はデータの散らばりの度合いを表す値となっています
これは、各データの偏差の2乗和をデータ数(n)で平均した値になります。
偏差は、個々の値と平均値の差のことになります
少しややこしいですね・・・
標準偏差の式の中身はこのようになります

偏差の例として次の表ようになります

グループAにそれぞれ数値がありますが、それら個々の数値に対して平均値との差を求めます
数値のばらつきを求めるために、個々の数値が平均に対しての差を平均する必要がありますが、単に総和を求めて平均を求めようとすると0となり求めることができません
そのために、それぞれの数値を2乗してから平均します

偏差の2乗を求めたら、それらの和を求めてデータの個数で割ると平均がでます
これが分散になります
この値が大きくなる程、平均値からの差が大きい数値が多いことになり
散らばりが大きい=分散が大きいとなります
では、標準偏差は次のようなことがわかります

分散に平方根を付ける理由としては、分散を求める際に2乗にして平均を求めたので、元のデータと同じ次元に戻すために平方根をつけています
と標準偏差のイメージはこんな感じになります
さいごに
データを集計するためのエクセルで使いそうな関数を紹介しました
(エクセルのバージョンによっては少し関数が異なるかもしれません)
今回の内容は基本的なものばかりだと思います
しかし、これらの基本的な関数はよく使うものなのでぜひ覚えておいてください
今回のSUM関数などもIF関数との組み合わせのSUMIF関数、SUMIFS関数なども使えるようになると条件を決めて集計ができるので効率化や欲しいデータを自分で求めることができると思います
今後必要そうであれば、それらの関数についても触れていきたいと思います
また、おまけで標準偏差についても書きましたが、この計算過程がわからなくても
標準偏差は、データのばらつきをみる
エクセルでは、STDEV.P関数を使う
ということさえ覚えていれば十分仕事に使えますよ
エクセルの関数を理解していくことで、効率良く仕事ができるかと思います
私も仕事を早く終わらせて、無駄な残業を減らして、家族のために時間を使いたいです
そのために、私ももっと勉強していこうと思います(今回内容も旦那にかなり教えてもらいました)