2.これからのデータ管理に求められる要請とMIRCの持つ戦略
データの量が著しく増大するとともに、関連するデータがますます多様化していく現状では、個々の研究者が生のデータを直接取り扱うことができなくなってきている。その最も著しい例が、人工衛星によって取られた海洋データである。一般の研究者は、物理量に換算された「結果」だけを利用するのであって、それを生データから計算するアルゴリズムにまで立ち入ることは先ずない。
気候変動予測のための、世界海洋のシミュレーション研究にとっては、それに必要とされる海洋データは三次元的な格子点における時系列の形で与えられることが望ましい。洋上を吹く風の場にしても、温度・塩分の構造にしても、数値実験を行う研究者が、自分でデータを収集して自分でそれをアレンジすることはほとんど不可能である。他の研究者ないしは他の機関によって与えられたデータセットを利用することが通常である。いいかえれば、その目的に理想的な形のデータセットを自分で構築することはできず、既製のデータセットに合わせるようにモデルが構築されることになる。このような背景のもとでは、データセットの精度や変動性・代表性といったデータの属性の情報も、他人任せとなり、ブラックボックス化していくことは避けられない。このことはデータ・プロダクツそのものの高品質化が求められることを意味する。そうしてデータ・プロダクツを作り出す担当者・担当機関の責任が重大化すると共に、その資質に対する要求も高度化していかざるを得ない。また、データ管理者と専門的なユーザーとの情報交換・意志の疎通が本質的に重要なものとなってくる。
高品質のデータ・プロダクツを生み出すためには、データの高度の品質管理が不可欠である。もっとも「高度の品質管理」の意味するところも必ずしも明確ではなく、そのこと自体が研究課題になり得る。従来のデータの品質管理においては、基本的には「極端な非常識な値」を除くことと、統計的に得た「平均値と分散」の値等を利用して高々「通常起こりにくいと考えられるデータにフラグを付ける」ことが行われているに過ぎない。
諸量の分布特性の歪みや、分布にピークが二つ現れるような場合などを考慮した品質管理は事実上行われていないし、次章に述べるような「異常値」の統計に基づく「物理的に意味のある異常値の抽出」といった作業はほとんど行われていない。もちろん、このような「いわば特殊な扱い」を大量のデータを対象とした定常的な品質管理作業に組み込むことは困難であろう。しかし、このような問題を明らかにして初めて「平均値と分散」といった基本的な緒量についての正確な意味の把握が可能となるであろう。データの品質管理の問題だけを取り上げても、研究すべき問題は山積しており、これが今回設立されたMIRCの名称に「研究」という文字が入れられた背景である。
また、品質管理は集められたデータ・資料に優劣のフラッグを付けるだけでは不十分である。より本質的には、JODCあるいはMIRCに流れ込んでくる諸データの品質を高めることが重要である。MIRCの目的の一つである「啓蒙活動」は、海洋データ・情報あるいはデータ・プロダクツを利用して、一般の人々に地球環境や人類の将来に対する海洋の重要性を啓蒙・周知させていくことが大きな柱である。しかし、流入するデータの品質向上のために、現場の海洋研究者・技術者に対して、計測器の管理や観測手法、データ・情報の収集整理技術、品質管理の知識や手法を普及・啓蒙することもまたMIRCに課せられた任務と考えている。そのため、現場で適用が可能な品質管理ソフトの作成作業も始めつつある。さらに、広大な海洋についてのデータの取得・管理・配布には国際的な協調・協力が不可欠であり、データの管理の面でも規格の統一等が望まれ、そのための国際的討議が必要である。