わさっきhb

大学(教育研究)とか ,親馬鹿とか,和歌山とか,とか,とか.

高収入を得る人は足が遅い?

「足の速さと年収の関係性」と題した画像が貼り付けられています.横軸が50m走のタイムで,縦軸が年収の散布図が中央を占め,その下には「この調査結果から、高収入を得る人は足が遅い人だということがわかりました。」という吹き出しがついています.散布図を見直すと,点は左下-右上の方向に散らばっています.相関係数は算出されていないものの,50m走のタイムと,年収の間に,正の相関があるのが見てとれます.
本文で指摘されているとおり,この結果をもとに「50m走のタイムが遅い人ほど収入が高くなる。」と言うわけにはいきません.年齢が,交絡因子*1となっている可能性を否定できません.
では「高収入を得る人は足が遅い人だ」や「足が遅い人は高収入を得る人だ」*2と,言っていいでしょうか.「XはYだ」という文の解釈にもよりますが,これらも,因果関係を匂わせるものとなり,散布図をもとに言っていいとは思えません.
代わりの表現としては,素直に「50m走のタイムと収入の間に正の相関が見られた」としたいところです.「年齢との関係については未調査」をカッコ書きして添えれば,逃げの一手となります.プレゼン向けだと「高収入を得る人は足が遅い?」と書くのは,ありかもしれません.もっと字数を減らすなら,「足が速いと低収入?」ですが,そう書いてしまうと,「高収入のためには何をすればいいか」への示唆を与えることにはなりません.
冒頭のブログ記事では,データ処理に関連して「閉眼片足立ち」を挙げていました.これについては最近読みました.

  • 青山和裕: 表やグラフの適切な利用と根拠に基づいた主張, 算数授業研究, 東洋館出版社, Vol.118, pp.24-25 (2018).

見開きで,左のページには「松田翔伍先生が,第6学年を対象に,眼を閉じて片足で何秒立っていられるかのデータを題材に行った授業実践」として,男女別のヒストグラムが載っています.横軸は時間(階級の幅は10秒),縦軸は人数です.右のページには,男女別の人数と平均値をまとめた表があり,そういった結果から何が主張できるか(表現の仕方)に,話は移っていきます.
右ページの最後のところには,小学校の算数にとどまることなく,自分も,文献を読んで見つけた統計情報や,研究室で得た結果をもとに,何らかの主張をする際には注意をしないとと感じました.引用します.

(2) 事実と推測の区別を
もう1つ大事な点は,事実と推測を区別することである。松田実践では,後半の展開で,ピーマン好きの記録の平均値は52秒,そうでない人の平均値は38秒で,ピーマン好きの方が記録が良いという分析を行ったグループもある。平均値の違いやあるいは分布で見ても違いがあったとして,それらは事実である。だが「ピーマンを食べれば記録が良くなる」と考えてしまっては論理が飛躍しているし,「ピーマン好きは野菜もよく食べていて健康だから記録が良い」と想像できるかもしれないがこれは推測である。
題材がわかりやすく面白いだけに,子どもたちが様々に考えを広げてくれるのはとても良いことである。ただ,事実として捉えた特徴や傾向,そこから推測できること,飛躍しているかもしれないけど思いついたことなど,それぞれに区別をして話をすることが大事である。推測していることをまるで事実のように思いこんでしまうのはとても危ないので注意したい。
推測したことを確かめるためにはどんなことを調べたらいいのか考えることで,さらなる探究へと活動を展開することも出来る。

「ピーマンが好きか嫌いか」は2値のため,閉眼片足立ちの時間との相関係数を求めるわけにはいきません.使えそうなのはt検定ですが,考えてみればt検定にせよ,相関係数にせよ,小学校の算数に取り入れようというのもおかしな話です.
50m走と収入の件と同様に,簡潔にまとめるなら,「ピーマン好きは閉眼片足立ちが得意?」といったところでしょうか.

*1:wikipedia:擬似相関にはこの語がなく,かわりに「潜伏変数」がリンクになっていて,その先はwikipedia:交絡でした.

*2:相関関係の説明においては,「XはYと相関している」と「YはXと相関している」と「XとYは相関している」は,実質的に同じ意味です.ピアソンの積率相関係数の定義より,2つの確率変数を交換しても,同じ相関係数が得られるからです.しかし回帰直線を引くとなると,説明変数(一般に横軸)と目的変数(同,縦軸)を取り違えたら異なる直線になってしまいます.