「不倫」データセットを機械学習して妻の説明変数パラメータを与えたところ、結果は…

結果はシロでした! 不倫しないそうです。(本人に結果報告したら「わかんないよ」と言われましたが…)

まずは学習データをロードします。

学習データに対する正解を作ります。

未知のデータ(妻パラメータ)に対する不倫するか(1)しないか(0)の結果を知りたいんですよね。

affairsは「不倫情事に費やした時間」です。生々しい表現だなぁ・・・。

正解をYに入れてあるので、その目的変数に強く相関する値affairsを説明変数から除きます。

ちょっとめんどくさいんですが、数字の大小に意味がない変数、職業をダミー変数に変換しつつ、多重共線性を排除して、説明変数に連結します。

occ, occ_husbの元となったデータを削除します。強く相関してますしね。

学習用データと、答えあわせ用データに分けてモデルを作ります。9割を学習用データとして使います。より正確さを追求したいので。

答えあわせをしてみます。

正答率70%。

愛妻の説明変数を与えて、不倫するかしないかを予測してみると・・・

結果は array([0]) = 不倫しない となりました。

こういう一見アホらしいことを全力でやるのは、やっぱり楽しいですね。

今度は別のモデルを使って予測してみよう。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする