6. 線型判別関数による予測
5節では、2002年1月1日から2003年8月31目までの32121ケースのデータを用いて線型判別関数を求め、その判別関数を、関数を導出したデータ自身について適用し検討した。
本調査研究で目標とすることは、過去のデータから得られた関係(線型判別関数(3)式)が、将来の予測にどれだけ役立ち得るかを検討し、実用的な予測・判別式として提案することにある。
そこで、線型判別関数を導出したデータでない別個のデータ群2003年9月1日〜12月4日の4985ケースに対して判別式を適用した結果を以下に示す。
まず、判別式を適用した結果の数値が表5の様に求まっている場合の整理の仕方を説明する。
表5 判定基準値Z=αの場合
|
Detention
Yes=2, No=1 |
予測グループ番号 |
合計 |
1 |
2 |
|
元のデータ |
度数 |
1 |
N11 |
N12 |
4571 |
2 |
N22 |
N12 |
414 |
|
% |
1 |
a11 |
a12 |
100.0 |
2 |
a21 |
a22 |
100.0 |
|
N11は本来グループ1(拘留なし)に属していたケースが拘留なしと判別された数である。N12はグループ1(拘留なし)に属していたケースがグループ2(拘留あり)に属すると判別された数となる。本来グループ1に属していたケース数は4571例であった。従ってN11 + N12 = 4571となり、それが合計欄に記されている。ここで、グループ1に属していたケースを正しく判別する割合(a11%)は
N11 / (N11 + N12) = N11 / 4571により算出される。
同様にN21は本来グループ2(拘留あり)に属していたケースが拘留なしと判別された数である。N22はグループ2(拘留あり)に属していたケースがグループ2(拘留あり)に属すると判別された数となる。本来グループ2に属していたケース数は414例であった。従ってN21 + N22 = 414となり、それが合計欄に記されている。グループ2に属していたケースを正しく判別する割合(a22%)はN22 / ( N21 + N22 ) = N22 / 414により算出される。このa22%の値としていかに高い値を得るかが一つの目標となる。
一方、グループ2と判定されたケースを全て検査する場合、全ケースの何%を検査することになるかは、(N12 + N22) / (N11 + N12 + N21 + N22) = (N12 + N22) / 4985で算出でき、これを検査率β%として下の枠内に記してある。
本来グループ2に属していたケースの何%が、検査率β%により捕捉できるかがa22%の値として得られる。そこで、捕捉率としてa22%を下の枠内に記してある。
さらに、この判別式自体の正答率、つまり本来のグループに属するケースを正しく判別する割合(γ%)は(N11 + N22) / (N11 + N12 + N 21 + N22) = (N11 + N22) / 4985で算出できる。この値も参考として下の枠内に記してある。
前節の議論でも示した様に、グループ2(拘留有)をいかに効率よく捕捉するかに着眼点があるので、判定基準値(Z=α)を順次変化させ、検査率、捕捉率への影響、全体の正答率を調べてみた。
表6 判定基準値Z=2.0の場合
|
Detention
Yes=2, No=1 |
予測グループ番号 |
合計 |
1 |
2 |
|
元のデータ |
度数 |
1 |
4221 |
350 |
4571 |
|
2 |
252 |
162 |
414 |
|
% |
1 |
92 |
8 |
100.0 |
|
2 |
61 |
39 |
100.0 |
|
判定基準値Zを2.0と設定した場合、本来グループ2(拘留有)に属する船舶をグループ2と判定する割合は39%にとどまる。グループ2と判定された船舶を全て検査すると、512隻/4985隻=0.103、つまり全体の約10%の船舶を検査することにより拘留の可能性のある船舶の39%が捕捉できるということになる。
表7 判定基準値Z=1.0の場合
|
Detention
Yes=2, No=1 |
予測グループ番号 |
合計 |
1 |
2 |
|
元のデータ |
度数 |
1 |
3982 |
589 |
4571 |
|
2 |
187 |
227 |
414 |
|
% |
1 |
87 |
13 |
100.0 |
|
2 |
45 |
55 |
100.0 |
|
この判定基準では、全船舶の16%を検査すると、拘留可能性のある船舶の55%の捕捉に成功する。
表8 判定基準値Z=0.0の場合
|
Detention
Yes=2, No=1 |
予測グループ番号 |
合計 |
1 |
2 |
|
元のデータ |
度数 |
1 |
3330 |
1241 |
4571 |
|
2 |
106 |
308 |
414 |
|
% |
1 |
73 |
27 |
100.0 |
|
2 |
26 |
74 |
100.0 |
|
拘留可能性の有る船舶を捕捉する割合は74%に上がるが、全正答率は73%に落ちる。この判定基準では、全船舶の31%を検査することにより、拘留可能性のある船舶の74%の捕捉が成功する。ただ、検査した船舶の20%のみが拘留となり、空振りも増えてくる。
表9 判定基準値Z=-0.25の場合
|
Detention
Yes=2, No=1 |
予測グループ番号 |
合計 |
1 |
2 |
|
元のデータ |
度数 |
1 |
2806 |
1765 |
4571 |
|
2 |
76 |
338 |
414 |
|
% |
1 |
61 |
39 |
100.0 |
|
2 |
18 |
82 |
100.0 |
|
拘留可能性の有る船舶を捕捉する割合はさらに82%へと上がるが、全正答率は63%に落ちる。この判定基準では、全船舶の42%を検査することにより、拘留可能性のある船舶の82%の捕捉に成功する。検査した船舶の16%のみが拘留となり、空振りも一層増える。
表10 判定基準値Z=-0.50の場合
|
Detention
Yes=2, No=1 |
予測グループ番号 |
合計 |
1 |
2 |
|
元のデータ |
度数 |
1 |
1854 |
2717 |
4571 |
|
2 |
40 |
374 |
414 |
|
% |
1 |
59 |
41 |
100.0 |
|
2 |
10 |
90 |
100.0 |
|
拘留可能性の有る船舶を捕捉する割合は90%になるが、全正答率は45%になってしまう。この判定基準では、全船舶の62%を検査することにより、拘留可能性のある船舶の90%の捕捉に成功する。検査した船舶の12%のみが拘留となるのは検査割合が増えるため仕方ない。
表11 判定基準値Z=-0.70の場合
|
Detention
Yes=2, No=1 |
予測グループ番号 |
合計 |
1 |
2 |
|
元のデータ |
度数 |
1 |
1216 |
3770 |
4571 |
|
2 |
15 |
399 |
414 |
|
% |
1 |
27 |
73 |
100.0 |
|
2 |
4 |
96 |
100.0 |
|
拘留可能性の有る船舶を捕捉する割合は96%になるが、全正答率は32%である。この判定基準では、全船舶の84%を検査する(全数検査に近い)ことにより、拘留可能性のある船舶の96%の捕捉に成功する。
以上、判定基準値を種々変えた場合の検査率、拘留可能性のある船舶の捕捉率の変化を見てきた。実際の運用において線型判別式をどのように用いるかについては10節において検討する。
|