SHARE
テックマジック、電気エンジニアの小宮山です。
調理ロボットの開発における電気関係の業務を主に担当しています。
エンジニアに限らず、観測したデータから散布図を描き、xの値からyの値を予測したり、傾向を掴むために回帰直線を求めてグラフ上に描画したことがあるかと思います。
比較的、使用する頻度の高い回帰直線について、観測データのばらつき具合とそのときの回帰直線がどのようになるかを述べさせていただきます。
今、図1のようなデータが得られたとします。右肩上がりの相関のあるデータに見えます。このときxとyにどのような関係があるかを予測するために回帰直線を求めてみます。
図1 ある観測データの散布図
回帰直線を描くと図2のようになります。
回帰直線を描くと図2のようになります。
図2 回帰直線(青色の線)
あるデータから回帰直線を描くという一般的なものです。
それでは、図3のようなy=xの直線上に分布しているデータがあるとします。
図3 y=xの直線上に分布するデータ
このとき、回帰直線はどのようになりますでしょうか?想像してください。
・・・そうです。皆さんのイメージどおり、図4の青色の直線になります。
図4 y=xの直線上に分布するデータと回帰直線(青色の線)
次に、y=x上のデータの散らばり具合を大きくしていきます。
データは相関のある架空のデータを以下のとおり生成しました。
x, e1, e2がそれぞれ分散の等しい母集団から抽出され、相関係数をrとしたとき、以下の式で計算した2つの変数y1, y2を(x, y) = (y1, y2)とします。
ここで、x, e1, e2は、平均値が0、標本標準偏差2.5、標本サイズ2000としています。
y1=r x+1-r e1
y2=r x+1-r e2
図5と 図6に相関係数をそれぞれr=0.9, 0.6として生成したデータ(x, y)の散布図と回帰直線を示します。
図5 散らばり具合が小さい(r=0.9)データと回帰直線
図6 散らばり具合が大きい(r=0.6)データと回帰直線
いかがでしょうか。散らばり具合が大きくなる程、直観的にイメージする回帰直線の傾きとずれが生じ、傾きが小さくなっていないでしょうか。
特に、図6の回帰直線の直観的なイメージは、図7に示す赤色の直線ではないでしょうか。
図7 回帰直線と直観的にイメージした直線
回帰直線の傾きは、データの散らばり具合が大きくなると0に近づく性質があるため、傾きが小さくなり、赤線との傾きの違いが現れます。
では、図7の赤色で示したxとyの関係を要約する直観的なイメージとして引いた直線は何でしょうか?
これは主成分分析の第一主成分軸です。
データの散らばり(ばらつき)が大きい場合にxとyの関係をあらわす直線を求めるときは、単回帰分析ではなく、主成分分析など別の方法を用いる方がデータを正しく要約できる場合があります。
話題は変わりますが、
個人的な回帰直線の活用事例は、測定装置を開発したときに測定値が真の値とする数値に対して誤差を持つため、装置の校正や測定値の補正に使用しました。
そのときは、取得したデータの散らばりがそれほど大きくなかったため回帰直線で十分だと判断しました。
散らばり方が大きい場合や、真値との誤差をより小さくできる補正方法を模索して、主成分分析を使った補正方法も検討した記憶があります。
最後に、上記データの生成と分析、グラフの作図は、「R」というプログラミング言語を使いました。開発環境は「RStudio」です。
用意された関数を使えば、回帰分析、主成分分析もすぐ答えが出ますが、理論を理解しておくことが重要だと思います。
私はいま、主成分分析の固有値と固有ベクトルについてきちんと理解するために学んでいます。
以上です。