海洋データに現れやすい基本的なエラーの検出と修正
-和歌山県水産試験場のケースを中心に-
吉村智一*・竹内淳一†・鈴木亨‡・岩田静夫‡・○永田豊・三宅武治§
(*(株)パスコ・†和歌山水試・‡MIRC・§JODC)
キーワード:データベース・品質管理・県水試・JODC
水産試験研究機関による定線観測データは流通ファイルフォーマットで保管されているが、原データ取得者側での利用頻度が低いこともあって、必ずしも品質が高度に保たれているわけではない。また、日本海洋データセンター(JODC)には、これらのデータのほとんどが収録されていない。したがって、これらの貴重な沿岸域のデータの掘り起こし、品質管理されたデータとしてJODCから提供できれば、統計処理やデータの二次、三次利用等に大きく寄与するものと期待される。そこで、海洋データの高度品質管理手法の開発の第一段階として、和歌山県水産試験場をテストケースとし、データに含まれる基本的なエラーの検出と修正を行った。ここでは1975〜1995年の観測データを扱い、修正前の観測総数は14164点である(Fig.1)。
最初に観測日時と位置(緯度経度)に関する空欄・不正値をチェックしたが、観測表(あるいは野帳)に遡っても修正不可能なものは0.2%以下であり、これらは以降の処理の対象外とした。次に時間をキーにソートし、1日以上観測間隔が空いた場合をクルーズの区切りとしてクルーズ番号を付加した後、クルーズ毎に航跡・船速チェックを行った。測点間の距離と移動時間から算出した船速が15knot以上のケースは378個(2.7%)検出され、観測表との照合から363個が修正可能であった。また、この修正前に海陸チェックで検出された15個のエラーは、修正後には全て検出されなくなり、和歌山水試の場合はクルーズ毎のチェックが有効であると言える。続いて行った観測深度チェックでは、浅海定線の所定層(0m,2m,5m…)を沿岸・沖合定線(0m,10m,20m…)と誤って入力した例などが検出された。重複チェックは各段階で行い、これまでの修正で残ったのは14031点(128516データ)となった(Fig.2)。
観測データについてはレンジ、水温傾度、水温と(現場)密度の各層間の差(逆転)についてチェックを行い、エラーの有無と種類に関するフラグを付加した。密度差(逆転)チェックでは特に0mとの比較時にエラーが多く検出されるが、この取り扱いには注意を要する。これらはJODCフォーマットに変換され、既存データとあわせて統計解析が行われる。
Fig.1. 修正前の観測点位置図