日本財団 図書館


すなわち、NODCの閾値は明らかなミスタイプの発見には使えても、高度の品質管理にはより厳密な閾値の設定が必要である。高度なレンジチェックに良く使用される方法は、過去のデータから平均値(m)と標準偏差(σ)を求め、m±3σを上限・下限の閾値として採用することである。先ず適当な内挿を行って標準層データセットを作り、水温の平均値(m)と標準偏差(σ)を求めた。図3に得られたmおよびm±3σの鉛直分布をそれぞれ白抜三角と丸で示した。正規分布に近ければ、測定値の99.7%がm±3σの範囲に入る筈である。しかし、m-3σの値は観測値の魂より低温側に大きくずれ、浅海部ではNODCの閾値よりも低い値を示し、高温では多くの観測値がm±3σの外側まで連続的に延びている。高温側へ分布の延びが著しい300m層について、水温値の頻度分布を図4に示す。図下の黒三角が平均値の位置で、ここから標準偏差(σ)を単位に白三角(3σ毎にハッチ)で目盛ってある。低温側で0℃以下の値がないのに対し、高温側では16℃までデータが存在し、出現頻度は暫減していくものの、連続的にこの高温値まで延びている。水温は結氷点以下になることはなく、結氷が起こらない三陸沖では0℃を切ることはない。高温側は、黒潮水や津軽暖水の侵入に伴って、かなり高温になり得る。特に顕著な黒潮水が侵入してくると、15℃程度の高温水が現れる。15℃の値が、m+9σにもなっていることに注意されたい。

図4の分布はピークが1つであるが、紀伊半島南東海域では黒潮蛇行期、黒潮直進期、沿岸湧昇発生期に対応して、3つのピークを持つ。図3の場合ではm-2σ、m+4σを下限と上限に採用すると、ほぼデータ分布のエンベロープを得ることができる。データ管理の点から見ると、m-2σ、m+4σといった、いわば便宜的な範囲設定をそれぞれの海域に行うべきであろう。ただし、その場合には範囲外のデータを、単純に誤データと判断すべきではない。「実在の可能性は高いが、統計的にはかなり異常なもの」を含むことを銘記すべきであろう。

074-1.gif

074-2.gif

 

6. おわりに

データの収集管理は、機械的・技術的に行えると誤解され勝ちである。しかし、実際にデータの収集・管理の作業にたずさわると、データ収集管理そのものが高度の研究対象であることを痛感する。最初に述べたホームズの思考段階を十分に踏まえているとは言えないが、それを座右の銘として今後さらに努力したいと考えている。

参考文献

[1]三宅武治・中里秀喜:日本海洋データセンターにおける新しいデータ処理システムについて、水路部披報、17、55-64(1999)。

[2]永田豊・岩田静夫・鈴木亨・小熊幸子・吉村智一・竹内淳一・三宅武治:海洋データセット作成・保管に際して発生し易い誤りとその原因─I. 和歌山県農林水産総合技術センターの事例から─。海洋調査技術(投稿中)(1999)。

[3]Ocean Climate Laboratory, NODC:World Ocean Database 1998-Documentation and Quality Control-, National Oceanographic Data Center Inernal Report, 14, 43pp(1998).

 

 

 

前ページ   目次へ   次ページ

 






日本財団図書館は、日本財団が運営しています。

  • 日本財団 THE NIPPON FOUNDATION