Sep.1999 Jour. Japan Soc. Mar. Surv. Tech.
沿岸定線、沖合定線双方の標準層の設定には、特殊な目的や年による変化があるようであるが、1972年5月からは統一されている。これ以降の沿岸定線の標準層は0、10、20、30、50、75、100、150、200、300mであり、沖合定線ではこれに400、500mが加わる。1979以後は沿岸定線野帳にも400、500m層が記載されており、そのためcase Bがなくなっている。また、1986年度からPODフォーマットが採用されているが、1987年からは従来の沿岸近くの重複点は沿岸定線野帳にのみ記載されるようになり、重複した記載はなくなっている。
重複データの検出の問題に関して、岩手県水産技術センターの解析の結果から、次のような結論が得られる。
1)観測データをクルーズ分けし、観測日時、観測位置の順に検索する方法が重複データの検索に有効である。
2)観測日時、観測位置の両方にミスがある場合には、船速チェック等であらかじめ訂正されない限り、重複データの発見は難しい。
3)この事例(特に1970年以降)のように、重複の原因が明確であり本来は完全重複のcase1となるべき場合でも、ミスタイプがあると部分的に相違点のある「重複の可能性の高い」データのペアとなる。
4)case1の場合には、一方のデータを消去し、一方を残すことによって(層の数が異なるBの場合には、両者の和を新しいデータとして、両者を消去する)データベースの訂正が可能であるが、「重複の可能性の高い」データについては、観測野帳等に戻って検討する以外、訂正する方法がない。
この解析結果を利用して、次章にMIRCでの重複データの検索とその取り扱いについて論じることにしよう。
4. MlRCで採用すべき重複データの検索とその取り扱い
同じ観測データが重複して入力されるケースは、しばしば起こり得ることで、そのチェックはデータ管理上重要なことの1つである。重複したデータが完全に同一のものであれば1つだけを残して他を消去すれば済むが、ミスタイプ等のため内容に僅かな差がある場合の重複データの検出・取捨の判断は非常に難しく、世界の全ての海洋データセンターがその対策に苦慮しているのが実状である。
岩手県水産技術センターの場合は、意図的に同じデータが複数のデータベースに入れられた場合であるが、一般的には同じデータが異なった経路を経てデータ管理機関にもたらされることから生じる。特に、途中の段階で、データの再編集や何らかの品質管理がなされる場合、もとのデータとは「完全一致」せず、「重複の可能性の高い」データが産み出される。
WOD98編集に際して、米国のNODCのOcean Climate Laboratoryでも重複チェックを実施している(Ocean Climate Laboratory, NODC, 1998)。
取得されたデータセットは、先ずNODCフォーマットに変換されると同時に、ヘッダー情報(日時・位置等の情報)が欠けていないか、日時情報にGMTが用いられているか、地方時が用いられているかどうか等の基本的なチェックが行われる。その後、可能な限り、データをNODC独自の方式でクルーズ分け(観測プラットフォーム毎に20日間の空白があれば別個のクルーズとする)を行い、船速チェック等基本的な品質管理を実施後、各クルーズ内のデータに対して、
(1)位置・日付・時刻が完全に一致するもの
(2)位置・日付・時刻に若干のずれがあっても、ある小さな範囲内にあるもの
(3)そのクルーズ内で、データ提供者の付けた測点名が一致したもの
(4)各観測量のプロファイルが一致するもの
(5)生物分類上のデータが一致するものを検索している。MIRCでも、ほぼこの線に沿った検索を行うことになるが、(2)の範囲としては、JODCのデータベースでの記述が、時間で0.1時間(6分)、位置が緯度経度で0.1分単位であることを考慮して、時間で0.5時間、位置で0.5分以内のずれのデータは検討対象とする。(3)については、新しく収集されたデータについては極力チェックするが、すでにJODCデータベースに入れられたものについてはクルーズ名・測点名の記載がないので、MIRCで独自にクルーズ名をつける。また、MIRCではまだ生物データの品質管理を行っていないので、(5)はわれわれとしては将来の問題である。
(4)については、一般論として、これを独立に組織的に実行することは難しく、データの取捨決定の補助情報として行うことになる。WOD98においても、その例として、最初にデータを受領した機関での記載が不正確であったとき、位置・日時に少しの違いが起こり得ることを述べているが、一日程度までの誤記入が、例えば地方時と標準時(GMT)の混同により生じることに注意を喚起している。