日本財団 図書館


海洋データの品質管理処理手法の研究開発 -MIRC Ocean Dataset2001の作成を例に-
鈴木 亨/すずきとおる:(財)日本水路協会海洋情報研究センター
小熊幸子/おぐまさちこ:(財)日本水路協会海洋情報研究センター
永田 豊/ながたゆたか:(財)日本水路協会海洋情報研究センター
吉村智一/よしむらともいち:(株)パスコ総合環境センター
 MIRCでは,JODCと水産庁がそれぞれ保有する各層観測データを統合して品質管理処理を行い,海洋データセット2001年版を作成した.本稿では,実際にこのデータセットを作成する際に用いた,海洋データに含まれる様々なエラーの検出方法と品質管理処理手法について紹介する.
1. はじめに
 日本海洋データセンター(JODC)は海上保安庁水路部の一組織として1965年に設立され,国内外の海洋調査機関によって得られた貴重なデータを一元的に収集管理する日本の総合的海洋データバンクとしての役割を果たしている.しかしながら,これまでJODCに蓄積されてきた各層観測データに対して木目の細かい十分な品質管理が行われてきたとは言い難い.どんなにコンピュータ化が進んでも人為的なミスに起因するエラーを完全に排除することが難しいとなれば,ミスを軽減する工夫を凝らしデータベースをメインテナンスし続けるのはもちろんのこと,様々なエラーを効率よく見つけ出し,ユーザに使用上の注意を喚起させていくことが,海洋データの二次,三次利用の促進につながる.海洋情報研究センター(MIRC)が設立された目的の一つは,海洋データの品質管理処理手法の開発について単に技術的な側面からJODCを支援するだけにとどまらず,海洋学の見地から研究的に行うためである.MIRCではその成果の一つとしてMIRC Ocean Dataset 2001(MODS2001:MIRC海洋データセット2001年版)を作成し,2001年2月から提供を開始した.
 本稿では,実際にMODS2001を作成する際に用いた,海洋データに含まれるエラーの検出方法ならびに品質管理処理手法の概要を紹介する.詳細はフォーマット・各種コード表とともにMODS 2001 Documentation(鈴木・小熊,2001)に記したので,合わせて参考にしていただければ幸甚である.
2. フォーマット変換
 MODS2001のデータソースは,JODCが国内外の海洋調査機関から受領して公開が許可されている各層観測およびBTデータ(1906〜1993年)と,水産庁中央水産研究所が収集・管理している水産試験研究機関が取得した水温・塩分の各層観測データ(1963〜1993年)である.これらはそれぞれ異なるフォーマットで管理されていたので,MODS 2001ではJODCの新統合フォーマッドFETI"に準拠し,一部拡張したフォーマットに変換した.この時,対応する項目が変換元データにない場合や変換元データの精度が低い場合は,当該欄(桁)をブランク(空白)とした.すなわちブランクは゛0"ではないのでご注意いただきたい.
3. 観測日付・位置チェック
 フォーマット変換された後,観測日付・位置の欄が適正な範囲内であるかチェックした.例えば「13月32日」や「24時61分」などの不適切な値,または年月日時分や緯度経度の度分のいずれかが空欄であった場合にはフラグを付加して,船速チェック(6節)の対象から除外した.
 ここで観測年は四桁の西暦に,時刻は全てGMTに統一した.これは各層データではないが, J-DOSSの移植元のファイルの中から1755年のデータが偶然発見された.前後から判断して1955年の誤りと思われるが,J-DOSSの観測日検索で1955年と指定すると当然対象外となる.観測日を除いて調査機関コードや船舶コードで検索すればいいが,出力フォーマットは西暦の下二桁しかないから,結果として検索は正しくても,誤りは気づかれないまま残されてしまうし,実際にまだ残っている.メモリとディスクの大容量化が著しいこの時代,冗長と思われても必要な情報にはケチらずに領域を割り当てておきたい.
4. コールサインおよび調査機関コード変換
 MODS2001では船舶コードとしてコールサイン(信号符字)を採用した.その理由は,JODC船舶コードは二桁しかないため,国内全ての観測・測量船にコードを割り当てるのが困難になってきたからで,実際に重複して割り当てられている場合もあった.その上1965年1月からJODC船舶コードが改定され,同一コードであっても期間によって船舶が異なったりしたため,船舶を特定する際にミスが生じやすかったし,中央水研が管理する水産試験研究機関のデータセットを統合する際にも船舶コードを更新する必要があった.
 実際には,特に年代の古い船舶のコールサインや就役期間(退役年月)など一部の船舶情報が調査しきれずに不明であるため,JODC船舶コードまたは水産庁船舶コードを引き継いでいる.なお, JODCでは各国毎に船舶コードを定義していたので,MODS2001では国コードを付加したファイル名を付けて区別している.また,変換元の船舶コードがブランクの場合には,調査機関コード毎に分けてファイル化されているが,これには不特定多数の船舶による観測データが含まれているので,船速チェック(6節)などの処理対象から除外し,フラグを付加した.
 MODS2001では調査機関コードを新たに五桁で定義し,実際に観測を行ったか,あるいはデータを報告・送付してきた海洋調査機関のコードを付加した.したがって,舶が所属する,あるいは配属されている調査機関コードとは必ずしも一致しない.例えば,用船や篤志船による観測,または大学所有の観測船で他の研究調査機関が観測した場合などがこれに該当する.MODS2001では,観測(クルーズやレグ)の主研究者(PI)などデータオリジネータの所属する機関あるいは部門が船舶の所属する機関と異なる場合には,原則として前者の機関コードが割り当てられている.また,海上保安庁巡視船の管区間での配置転換,機関名称の変更や購入・編入によって所属機関が変わった場合にも,同一コールサインに対して複数の海洋調査機関コードが付加されている.これらを除いてもコールサイン(IDコード)と調査機関コードの関係が不自然であれば,国コードも含めて変換元データが間違っていた可能性が考えられる.MODS2001では可能な限り修正したつもりだが,船舶あるいは調査機関を特定してデータを利用する際にはご注意いただきたい.
5. 重複チェック
 MODS2001で重複チェックの対象とした項目は,観測日付・位置,JODC参照番号(JODCデータの場合),データプロファイルで,結果は表1に示すレベルに分類した.まず全項目が正確に一致するデータは,完全重複していると判断してJODCが最初に受領したデータだけを残し,他はデータセットから削除した.それ以外で重複の可能性があると判断されたデータは,対象となる全ての観測点に対して,重複レベルに応じたフラグを付加した.つまり,一つの観測点に対して複数の重複可能性データがあるかもしれないので,例えば海域を限定して抽出したデータから統計値を計算する場合などは,重複可能性データの有無に注意する必要があるだろう.
 なお,水産試験研究機関の観測データに含まれていると考えられる重複に関しては小熊ら(2000)に詳しい.
重複チェック結果 判断
対象項目が全て一致 明らかに重複
JODC参照番号を除いた項目が一致 重複の可能性が極めて高い
日付・位置・プロファイルが一致 重複の可能性がかなり高い
日付・位置は一致するが,プロファイルは異なる 重複の可能性が高い
日付1時間以内・位置1'以内で,プロファイルが一致 重複の可能性がある
日付1時間以内・位置1'以内で,プロファイルは異なる 重複の可能性を捨てきれない
表1 重複チェック結果の判断レベル.チェック項目は観測日時・位置,JODC参照番号,データプロファイルである.
6. 船速チェックと海陸チェック
 観測日付・位置チェックをパスしたデータに対して,船速チェックをコールサイン毎に行い,日時と位置から計算された観測点間の推定移動船速が25ノット以上となった場合に,両方の観測点に対してフラグを付加した.
 船速チェックは,入力ミスなどに起因する不適切な観測日付・位置,変換元の船舶コードの付け間違いなどから生じる非常識な航跡を極めて効果的に検出する.例えば図1に示すような観測位置の入力ミスは,観測日付・位置チェック(3節)だけでは検出し難い.さらに図1のようなクルーズ毎の航跡異常表示処理と併用すれば,修正されるべき項目の特定も容易である.この処理機能はMIRCが開発した水産試験研究機関フォーマット対応の現場用海洋データ品質管理ソフトウェア"POD-QC"の一つであり,実際に和歌山県,三重県,岩手県の各水産試験研究機関データに対してこれを使用して処理を行った.
 海陸チェックは,国土地理院発行数値地図250mメッシュ標高値を基に全データ(ただし観測位置の度または分が空欄の場合を除く)に対して行い,標高値の存在するメッシュの内部,すなわち陸域にあると判定された観測点にはフラグを付加した,船速チェックだけでも,図1のように陸域にある観測点を効率よく検出できる場合がある.また,船速チェックの検査対象は観測日付・位置・コールサインの三項目であるのに対し,海陸チェックは位置だけである.しかしながら,例えば図2(a)のように,三点以上の連続した観測点が陸域にある場合は,船速フラグが付加される陸域の観測点は両端のみとなる,また,図2(b)のように正常な船速で陸域に移動する観測点は船速チェックでは検出できない.このような場合には海陸チェックによる不適切な位置の検出が不可欠である.
z1042_01.jpg
図1 船速チェックにより緯度の不適切な値が検出された例(1977年11月11日和歌山県水産試験場(当時)による観測から).
z1042_02.jpg
図2 船速チェックでは検出されない不適切な観測位置の模式図.(a)で破線の航跡は船速25ノット以上での移動を,*はフラグが付加される観測点を示す.(a)では陸域の二点にフラグは付加されず.(b)の陸域観測点は船速チェックでは検出されない.
7. 観測値チェック
 データプロファイルに含まれる,水温(T),塩分(S),水素イオン指数(pH),溶存酸素(DO),リン酸態リン(PO4-P),全リン,ケイ酸塩(SiO3),硝酸態窒素(NO3-N),亜硝酸態窒素(NO2-N),クロロフィル-α,アルカリ度の各観測項目毎に, World Ocean Database 1998 Version2(WOD98v2)と同じ閾値を使用してレンジ・勾配チェックを行い,チェックの結果に応じてデータ品質フラグを付加した(NODC,1999).これ以外の観測項目に対して観測値チェックは行われていないので,フラグはブランクである.
 MIRCでは,和歌山県農林水産総合技術センター水産試験場および岩手県水産技術センターの観測データを基に,それぞれの海域特性を考慮した閾値の設定について検討したが(永田ら,2000;小熊ら,2000),MODS2001のデータは日本近海を中心とした北西太平洋,あるいは国外海洋調査機関データでは他の海域にも広く分布しているので,WOD98v2と同じ閾値を品質管理処理に適用することによってフラグ値の意味を統一させることにした.もちろん,沿岸域と沖合域,あるいは三陸沖と黒潮域の観測値に対して,同じ閾値による品質管理が適切であるとは思われないし,実際に,WOD98v2で使用された各種閾値は,あくまで明らかな異常値を検出するためのものであって,海域特性を考慮して設定された値ではない.今後より多くのデータがJODCに集まり,細分化した海域毎に閾値の設定が可能となれば,それぞれの海域特性に応じて木目細かく品質管理されたデータセットが作成されるだろう.
8. 観測深度チェック
 データプロファイル中に観測深度の重複または逆転(直下の方の水深が浅い場合)があればデータ管理フラグを付加した.また,観測点の水深が観測と同時に測られていた場合,その水深の120%(1.2倍)を越えた観測深度に対してもフラグを付加した.観測水深が無い場合には,122-148E,24-48Nの範囲についてはMIRCが作成した1kmメッシュ水深データと,それ以外の範囲についてはETOPO5と比較した.もちろん,海陸チェック(6節)で陸域と判定された観測点はこのチェックの対象外である.いずれのメッシュ水深値もメッシュ内の平均あるいは推定した水深値でしかなく,観測最深度と比較するには非常に粗い精度であることに留意されたい.
 中央水研管理データにおける観測深度変換作業の実際は鈴木・小熊(2001)に詳しい.
 将来,観測に使用された,あるいは各船舶に装備された観測機器の一覧がメタデータとして整備されれば,機器の仕様や性能に基づいた観測深度チェックが可能となるだろう.例えば,XBTT7プローブで良好な観測値が得られる深度は約800 mまでであるから,それより著しく深い観測値の取り扱いには注意すべきである.また,各船舶に搭載されているウインチのワイヤー長などが明らかになれば同様にチェックできる.これもMIRCがメタデータとして船舶情報を収集している所以である.
 ここで,和歌山県農林水産総合技術センター水産試験場データを基に品質管理処理手法を開発した過程で検出された,系統的な観測水深異常の例を紹介する(永田ら,2000).図3は,観測最深度が観測点水深より深い観測点の出現頻度を示している.その大部分は観測点水深より25%までの超過であるが,詳しく調べたところ,これらの観測点はいずれも海底地形が急峻であり,したがって観測中に船が深い方にドリフトしたためと考えられた.一方,観測最深度が観測点水深の25%以上となった観測点は1974〜1978年の5年間に集中しており,この期間中は100%,すなわち観測点水深の2倍以上の場合が多くを占めていた,該当するデータを観測表や観測野帳と照合したところ,浅海観測であったにもかかわらず沿岸・沖合観測の観測層として転記・入力されていたことがわかった(表2).そのために,実際の観測点水深よりもさらに深く観測したことになっていたのである.
z1044_01.jpg
図3 和歌山県農林水産総合技術センター水産試験場のデータから検出された観測最深度異常の年変化.ヒストグラムの上部は観測最深度が観測点水深の25%以上,下部は0〜25%を表す.
 
浅海定線(m) 0 2 5 10 20 30 50 75 100 125 150 ・・・
沿岸・沖合定線(m) 0 10 20 30 50 75 100 125 150 175 200 ・・・
表2 水産試験研究機関の定線別観測層.
9. 密度逆転チェック
 密度逆転チェックも基本的にWOD98v2に準じて行われた.すなわち,チェック対象層とその直下層との密度差の絶対値が閾値より大きい場合,データ管理フラグが両方の深度の水温,塩分に対して付加した.
 ここでも和歌山県農林水産総合技術センター水産試験場データを例に,密度逆転の出現頻度傾向について紹介したい(永田ら,2000).図4は,和歌山県農林水産総合技術センター水産試験場のデータから検出された密度逆転の年変化と,使用された塩分計との関係を示している,0mとその直下の観測層と比較したときの密度逆転の出現頻度は年によって多少の増減はあるものの,CTDの塩分値を採用した1988年以降は,1993年を除けば非常に少ない.これに対して0mを含まない観測層間で比較したときの密度逆転は1971年以降に著しく減少しており,これは使用された塩分計がAuto-Labに切り替わった時期と一致する.同時期に他の水産試験研究機関でもAuto-Labが導入されたことから,それらのデータに含まれる密度逆転もほぼ同じ出現傾向にあると考えられる.
 塩分計に限らず,使用された観測機器や検定方法の詳細な情報は,個々の観測値のみならずデータセットの品質を保証する上で重要となる.しかしながら,これらの情報が直接データセットに含められるほど収集されていないのが現実であり, MIRCではこれらをメタデータの一部として統合しているところである.
z1045_01.jpg
図4 和歌山県農林水産総合技術センター水産試験場のデータから検出された密度逆転の出現頻度の年変化.ヒストグラムの上部は0mとその直下の観測層との比較,下部は0mを含まない観測層間の比較で検出された密度逆転を表す.上の矢印は使用された塩分計の,下の矢印は0mとして採用された塩分値の年推移をそれぞれ示す.
10. おわりに
 本稿で紹介した品質管理手法は,JODCのように多種機関から大量にデータを受領するデータセンター向けかもしれないが,船速チェックなどはデータ取得機関が独自にデータベース化する際にも適用可能だろうし,なんといってもデータ取得者による品質管理処理が最も重要で,少なくとも船速・海陸チェックで検出される基本的なエラーは確実に取り除かれる.MIRCがPOD-QCを開発した所以もここにあり,JODCに送付されるデータの品質を向上させてJODC側の負担を軽減させるのもまた狙いの一つである.
 MIRCでは,MODS2001を基にした水温・塩分などの標準層およびメッシュ統計値のデータセットをリリース予定である.また,MODS2001の最新・追加情報は以下のURLから入手できる.
参考文献
[1]永田豊,岩田静夫,鈴木亨,小熊幸子,吉村智一,竹内淳一,三宅武治(2000):海洋データセット作成・管理に際して発生し易い誤りとその原因-I.和歌山県農林水産総合技術センターの事例から-,海洋調査技術,11,1-10.
[2]NODC(1999):World Ocean Database 1998 Documentation and QualityControl ver.2.0. National Oceanographic Data Center Internal Report 14, Ocean Climate Laboraotry, National Oceanographic Data Center, Silver Spring, MD, 117pp.
[3]小熊幸子,鈴木亨,永田豊,渡辺秀俊,山口初代,高杉知(2000):海洋データセット作成・管理に際して発生し易い誤りとその原因-II,岩手県水産技術センターの事例と重複データの取り扱い-,海洋調査技術,11,11-18.
[4]鈴木亨,小熊幸子(2001):MIRC Ocean Dataset 2001Documentation. MIRCテクニカルレポート, 1, 169pp.








日本財団図書館は、日本財団が運営しています。

  • 日本財団 THE NIPPON FOUNDATION