たまたまgaccoという無料で学べるオンライン講座で『社会人のためのデータサイエンス演習』をやっていると教えてもらったのでやってみようと思ったのですが、講座の説明の留意事項に「課題はExcelを使用します」と書いてあったんです。
でも、ぼくのPCにはMS Officeが入っていないんです。
いつも使っているGoogleスプレッドシートで何とかならないものかとググってみたら意外と行けそうだったので、同じような境遇の方の参考になればと思います。
Excelファイルの変換
Google ChromeでExcelファイルのリンクをクリックすると、Googleスプレッドシートで表示されます。(ぼくの環境ではそうなっています。)
でも、それはOffice互換モードで開いている状態なので、Googleスプレットシートに変換してフルパワーが出るようにします。
平均値、中央値、標準偏差
『社会人のためのデータサイエンス演習』には「課題の補講」も付いていて、そのビデオでExcelでは「データ分析」という機能を使うことで「平均値、中央値、標準偏差」を出せるようなんですが、Googleスプレッドシートにはこの機能は無いみたいでしたので、関数で計算しました。(L列が対象のデータで見出し付きで1,000件ある場合)
- 平均値:=AVERAGE(L2:L1001)
- 中央値:=MEDIAN(L2:L1001)
- 標準偏差:=STDEV(L2:L1001)
まずは[挿入]-[グラフ]でグラフとグラフエディタを表示します。
ブラフエディタの「グラフの種類」を「ヒストグラムグラフ」にして、「データ範囲」を変更します。
※確認テストは「食費」(L列)ですが、ここでは「教養娯楽費」(T列)にしています。
「グラフエディタ」の「カスタマイズ」タブの「ヒストグラム」で「バケットサイズ」(階級間隔)を適切な値に変更します。
「バケットサイズ」はプルダウンリストになっていますが、直接入力することもできます。グラフの各「階級」をクリックすると、その階級の頻度を表示することもできます。
クロス集計
クロス集計を表示するには、まず、[データ]-[ピボットテーブル…]を選んで、「ピボットテーブルの作成」ダイアログを表示します。
「作成」ボタンをピボットテーブル用のシートが表示されます。
行・列・値それぞれの「追加」ボタンをクリックして、表示するデータを選択します。「値」の「集計」を「SUM」から「AVERAGE」にして平均値を表示します。赤枠の部分の機能を使うと、表示形式を調整することができます。
※確認テストでは「光熱・水道費」についての問題になっています。
散布図
まずは[挿入]-[グラフ]でグラフとグラフエディタを表示します。
「グラフの種類」を「散布図」にして「データ範囲」を変更します。
※確認テストは「交通・通信費」(R列)と「教育費」(S列)ですが、ここでは「被服及び履物費」(P列)と「保健医療費」(Q列)にしています。
「グラフエディタ」の「カスタマイズ」タブの「グラフと軸のタイトル」でタイトルテキストを変更することができます。
相関関係
相関関係の強さは相関係数で比較することができます。
J列が「年間収入」、M列が「住居費」、O列が「家具・家事用品費」、T列が「教養娯楽費」の場合は次の式で計算できます。
- 年間収入と居住費の相関係数:=CORREL(J2:J1001,M2:M1001)
- 年間収入と家具・家事用品費の相関係数:=CORREL(J2:J1001,O2:O1001)
- 年間収入と教養娯楽費の相関係数:=CORREL(J2:J1001,T2:T1001)
平滑線グラフと12カ月移動平均
Excelでは分析ツールで簡単に出せるようですが、Googleスプレットシートでは方法がわからなかったので、12ヶ月移動平均は対象となるデータの隣に列を追加して計算し、それをグラフに表示することで代替えしてみます。
※確認テストではパック旅行費(外国)ですが、ここではパック旅行費(国内)で行っています。
BN列の右に1列追加して、12ヶ月移動平均の計算式をセルに追加していきます。計算式はBO13では「=SUM(BN2:BN13)/12」となります。
データができたらグラフを追加します。
「グラフの種類」は「平滑線グラフ」を選んで、「データ範囲」に「年月」、「実測(パック旅行費(国内))」、「季節調整費(追加列)」を選ぶと、上図のようなグラフが表示されます。
決定係数
決定係数は散布図から表示することができます。
散布図を表示したら、「グラフエディタ」の「カスタマイズ」タブの「系列」にある「トレンドライン」にチェックを付け、その後「決定係数を表示する」にチェックをつけます。
ラベルの横に赤枠のように決定係数が表示されます。
※確認テストでは「食費」ですが、ここでは「住居費」にしています。
講座の感想
講座を受講し終わって、「統計学Ⅰ」の方がためになった気がしました。次の「統計学Ⅱ」も受講しようと思っています。
「統計学Ⅰ」は終了条件を満たして受講を終えたので修了証をPDFでもらえました。
「社会人のためのデータサイエンス演習」は「統計学Ⅰ」を先に終えていたこともあってか100%の成績で講座を終えました。一応講義動画も全て視聴したので特別な修了証が発行されるそうです。
2019/7/11追加
「社会人のためのデータサイエンス演習」の修了証が発行されていました。確かに「統計学Ⅰ」より派手ですね...。
おわり