日本財団 図書館


海洋化学系データの管理
小熊幸子/おぐまさちこ:
鈴木 亨/すずきとおる:
(財)日本水路協会海洋情報研究センター
 データ精度やフォーマットの差異から,様々な形態で分散状態にある海洋化学系データを,データのインベントリ(所在情報)を使って一つのデータベースのように繋ぐ試みが,国内外で進められている.今後のデータ共有に一つの指針を示すものとして紹介するとともに,共有化の進展に伴って無視できなくなるデータの品質管理について述べる.
1. 背景
 過去の研究においては,研究者個人で観測し収集したデータを解析した成果として,論文を提出してきた.しかし,研究課題が次第に地球規模となるにつれて,観測規模も拡げなければならず,研究者個人のデータだけでは不足するようになった.またコンピューターの発達により,どんなに膨大で精密なデータでも解析が可能となった.そうして,データを研究者間で共有し,互いの研究を発展させるべく,研究プロジェクトが組まれ,複数の研究者,そして複数の大学・研究機関が参加して,空間的時間的にスケールを拡げた観測が行われてきた.GEOSECS以来,WOCE,JGOFSといった海域を越えたプロジェクトも進められてきた.このように大きな研究プロジェクトのデータを扱う上で重要なことは,測定方法やデータ精度をすべて一定として,データの質の個人差を極力少なくして,データを潤滑に交換できるようにすることである.プロジェクトが大きくなるほど参加研究者が増えるので,それはより難しくなる.プロジェクトによっては,データの取り扱いの方針が「データポリシー」として参加研究者間で決められている.
 プロジェクトに参加していない研究者もデータを利用できるように公開する場合,データをデータセンターに提供して,他のデータと一緒に保管,公開する方法がある.データは,ある程度決まったフォーマットで整理されているが,そのフォーマットはデータの精度や,データを収集した当事者の都合に合わせて決められるので,様々である.従って,データセンターにはフォーマットの異なるデータが提供される.その後,フォーマットをデータセンターで独自の変換して整理することは技術的に可能である.しかし,精度の異なるデータを混ぜることは,データ利用者側にとって問題である.精度の差は,測定方法の違いを反映したものであり,容易に比較することができないためである.
 そこで,測定方法が統一されているプロジェクトごとに,データセットを分けて保管する方法を考慮する必要がある.インターネットなど通信手段が発達した昨今では,プロジェクトで独自に開設したホームページや,FTPサイトからデータを提供する方法がある.研究者個人がそれらの手段を用いることは無論自由であるが,なるだけ一カ所に集めてデータを共有することで,多くのデータを効率よく活用することが可能となる.結果として,データが研究者間でスムーズにデータ交換ができれば問題はない.しかし実際には,プロジェクト内のクルーズ毎にデータをまとめる時点で困難が生じている.
 海洋化学系データは,パラメータが非常に多いうえに,測定方法が水温・塩分等物理系パラメータに比べて人的作業に頼る部分が多いので,データのキャリブレーションだけでもかなりの時間と労力を要する.観測内容によって差はあるにせよ,データポリシーによってデータ提出までにある程度の時間猶予が保証されていても,提出前に論文等で研究成果を公表するには不十分であることが多い.その一方で,データ管理にも問題がある.データ量が増加する一方でデータ管理に携わる人的整備が追いつかず,一つのデータベースとしてまとめられることなく,一媒体に入ったまま放置されることがある.
 こうした問題を解決しながらデータを収集し一度にデータベース化するには,膨大な時間と手間を要するが,散在するデータをオンラインでリンクして一つのデータベースのようにすることなら可能ではなかろうか.具体的には,あるウェブサイトにデータの所在情報,すなわちインベントリを用意してデータ検索ができる状態にして,データベースに統合されていないデータでもオンラインで利用できるようにする方法である.インベントリとデータが直接オンラインでリンクしていなくても,インベントリに問い合わせ先となる研究者が紹介されていれば,その研究者を介してデータを取得することもできるので,実質的にデータとリンクしていると見なせる.
 すでにJGOFSのウェブサイトでは,インベントリと各研究所にあるデータをリンクして,先に述べたオンライン上のデータベース化が実現されている.しかし,日本国内においては,JODCのウェブサイトでJGOFS関連データについてインベントリを公開しているが,データ検索に利用するまでには至っていない.また,JGOFS等のプロジェクトに属さない大学のデータに関するインベントリはまだ存在しない.次の節では,海洋二酸化炭素(CO2)関連項目を観測した航海であれば,国内の全てのデータが加入できるインベントリ「IJCD(仮称)」について紹介する.
 また,こうしたデータベース化によりデータ共有が進むにつれて無視できないのが,データの品質管理である.インベントリによりオンライン上では一つのデータベースのようになっても,個々のデータ間には,測器や標準海水等に起因する差が存在する.これらの品質管理に関する問題等について後に述べる.
2.IJCD(仮称)
 IJCDは,Inventory for Japanese Chemicaloceanographic Dataの略称である.名の通り,日本国内の海洋化学系データのインベントリが集められている.もとは,PICES WG13にてCO2 data synthesisを進めるにあたって,日本国内の化学系データの所在状況を紹介するために計画された.参加研究者は(以下50音順,敬称略)石井雅男(気象研),小熊幸子(MIRC),小埜恒夫(地球フロンティア),後藤浩一(関総),才野敏郎(名大),佐々木克之(中央水研),島野富士雄(環境研),鈴木亨(MIRC),鶴島修夫(資環研),野尻幸宏(環境研),三宅武治(JODC),村田昌彦(JAMSTEC),渡邊修一(北大),渡辺豊(資環研)の14名である.IJCDは一般公開を目標として作業を進めているが,まだ準備段階にあるため非公開である.また,題目にもあるように,IJCDという名称は依然仮称である.
 IJCDは,化学系データの中でも,CO2関連項目(全炭酸,アルカリ度, pH, pCO2)のうち一項目以上を測定した航海を対象としている.一概に化学系データを対象としてしまうと,あまりに対象が広がってしまうためである.しかし,それらの航海で同時に収集される他の化学系データの関連情報も,航海ごとにインベントリの一部として集められている.インベントリの対象海域は,赤道以北の北太平洋だが,クルーズが赤道域や南半球に及ぶ場合はその部分も含んでいる.2000年10月現在IJCDの登録クルーズ数は,1973年〜2000年の131クルーズに及ぶ.図1は,登録されているクルーズのうち航跡の分かるものをまとめた航跡図である.
z1048_01.jpg
図1 IJCDに登録されているクルーズの航跡図(一部の航跡未提出クルーズを除く).
 IJCDのインベントリ一覧は,大きく年代別と船舶別に二分される.船舶別の一覧は,研究者の所属機関と船舶の所属機関がほぼ同一であるという日本の観測事情を考慮すると,船舶毎の一覧があれば特定の研究者についてデータを検索する場合に便利である,という理由から作成された.年代別,船舶別のリストは,ボトル採水データと航走データの各々について作られている.インベントリとして集められている情報は,メタデータの一部ともいえる.メタデータとは,そのデータをいつ(when),誰が(who),何処で(where),何のために(why),何を(what),どのように(how)収集したものであるのか,というデータの背景を示す情報や,データの品質管理情報を含む,いわば「データのデータ」である.具体的にメタデータとして扱われる項目を大まかに分類すると,以下のようになる.
・いつ(when) :観測期間
・誰が(who) :主任研究員,所属機関
・何処で(where) :観測海域
・何のために(why) :プロジェクト名,観測目的
・何を(what) :観測項目
・どのように(how) :船舶,測定方法
 これらの項目の内部で,さらにこれらの5WlHの項目がある.例えば,船舶情報については,その機能や製造年など,船そのものの情報が存在する.船舶別一覧では,白鳳丸など詳細情報のサイトを持ったものについて一部リンクしている.
 インベントリー覧の例を図2に示す.図2は年代別一覧のうちボトル採水データのインベントリである.上述の5WlHの項目が順次列挙されている.最右列の「Details」は,測点毎の詳細情報とリンクしている.詳細には,各測点における位置情報,採水層の水深,パラメータ毎の採水状況などが掲載されているが,フォーマットや内容は航海(船舶)毎に異なる.プロジェクトの一環として行なわれた観測のうち,プロジェクトですでにウェブサイトを持っていて詳細情報が掲載されている場合は,そのサイトにリンクするようにしている.全ての航海について全てのインベントリが揃っているのではないが,空欄も「不明」という一つの情報である.不明部分については,今後調べられたものから順次掲載する.
Bottle Sampling Data in 1995-1997
Back to List Contents
Last modified 14 Out 2000
Total 22 cruses
(拡大画面: 75 KB)
z1049_01.jpg
図2 IJCDのインベントリー覧表の例.年代別一覧のうち1995年〜1997年のボトル採水データのインベントリ.
 IJCDでインベントリの検索に利用できるのは,現在のところクルーズ一覧表だけであるが, WOCEやCDIACと同様に航跡図からもデータを検索できるようにする予定である.また,IJCDのインベントリとデータは直接リンクしていないが、プロジェクトでサイトを持っていてそこから公開されているデータについては,そのサイトを通して利用することができる.つまり,オンラインでIJCDとリンクしていれば,データはデータ所有者(所有機関)のコンピューターに入ったままで構わない.
 IJCDは,データの公開や統合を強制するものではなく,データポリシーに従ってデータが非公開であっても,観測の事実公表としてインベントリだけを公開することも可能としている.だが将来的には,公開可能なデータについてはインベントリを実データとリンクして,自由なデータ利用に活用できるようにすることも視野に入れている.今後は,IJCDに登録されているクルーズの中でも,大学等独自のサイトを持たないクルーズのデータのデジタル化を進めると共に,研究者がデータの公開を希望する場合は,IJCDのクルーズリストとデータを直接リンクして,データ公開の場を提供することを考えている.
 こうしたデータ検索システムヘの発展にあわせ,IJCDからの名称変更も検討されている.
3. 国際的共有に向けた海洋化学系データの品質管理
 IJCDのように一カ所にデータを集めることなく,インベントリを介してデータを公開する方法はまだ一般的ではない.よく知られたところではJGOFSのデータインベントリくらいである. WOCE Hydrographic ProgramとCDIACのホームページでもインベントリが公開されていて,すでに公開可能なデータからデータリンク化が進められているが,データ自体はそれぞれに一つのデータベースとして集約されている.また,CDIACは研究者から提出されたときのフォーマットのまま保存しているが,WOCEは独自のフォーマットで統一している.確かに,従来のデータセンターのように,全てのデータを同一フォーマットに統合することは,膨大なデータを効率的に管理をするうえで重要である.しかし,海洋化学系データのようにパラメータもフォーマットも多様で,かつ後から品質管理によって内容変更もありうるデータに関しては,異なる状態のデータの共存を許容することも必要と考えられる.具体的にこれらの問題をどのように解決していくのかは,今後アメリカのNODC,CDIAC,カナダのIOS,そして日本のIJCDの参加研究者が検討を重ね,まずは3ヶ国間の海洋化学系データのフォーマットの統合に向けて作業を進める.はじめは北太平洋のCO2関連データに作業が絞られるが,将来的には栄養塩やクロロフィル-αといった化学・生物系データにまで拡張される見込みである.
 こうしたデータの集約,フォーマット統一・不統一に加えて,多大な時間と労力を要するデータの品質管理の問題は,国内に限らず,国際的にデータを共有するうえで避けて通れない.データセンターの側で品質管理作業をするには,研究者と一対一のやり取りが必要で,研究者とデータ管理者との間に理解がなくては非常に難しい.
 データセンターでの品質管理よりもっと本質的な研究現場の作業として,インターキャリブレーションがある.たとえ同じインベントリ表に載っていても,標準海水や測器によってデータ間に「差」が存在する.その「差」を埋めて,データに互換性を持たせるために行われるのが相互検定(intercalibration)である.相互検定とは,普段は異なる標準海水と測器を使っている研究者達が,同じ標準海水について主要成分を測定し,その結果でお互いのデータのトレンドを明らかにする実験である,これまで,国内外の海洋CO2の研究者が中心になって数回行われてきたが,相互検定は別に海洋CO2に限られたことではなく,栄養塩など他の化学系データについても非常に重要な作業ではないだろうか.今後,データ共有化が進むことを見越して,海洋CO2に限らず,多くの海洋化学の研究者が相互検定に参加することが望まれるが,現実的に参加する側にかかる負担は無視できない.
 海洋化学系データの品質管理,と一口に言っても,データ管理者がコンピューターに向かうだけで済むことではない.むしろインベントリやデータ検索システムは,管理作業全体からすれば末端にあり,研究現場で海水が測定される時点で管理作業は始まっている.既存のデータセットについても,ただデータを統合するだけでなく,現場に目を向けた管理が必要だったことは言うまでも無い.相互検定等データ自体に関わる問題を解決するため,まずは研究者と理解を深めることが,実は最も重要ではなかろうか.海洋CO2については,相互検定に関する会合にデータ管理者も参加するなど,すでに相互理解が進んでいる様子が伺えるが,これからは他の化学系データ項目についても,こうした交流が進められることを期待する.
Period Bottle Sampling Underway pCO2
1971-1980 7  
1981-1990 9 2
1991-1995 19 12
1995-1997 22 9
1998-1999 21 27
2000- 2 1
Total 80 51
表1 Numbers of cruises in the historical cruise list.
Ship Bottle Sampling Underway pCO2
M/S Alligator Hope   1
R/V Bosei-maru (Tokai Univ.)   2
R/V Hakuho-maru (Univ.Tokyo) 27 1
R/V Hakurei-maru (MMAJ) 12 12
R/V Hokko-maru (JFA) 6  
T/S Hokusei-maru (Hokkaido Univ.) 16 6
R/V Kaiyo-maru (JFA) 2  
R/V Mirai (JAMSTEC) 4 7
T/S Oshoro-maru (Hokkaido Univ.) 2  
R/V Ryofu-maru (JMA)   2
S/V Shoyo (JHD/JCG)   6
M/S Skaugran   1
R/V Soyo-maru (JFA) 6 11
S/V Takuyo (JHD/JCG)   2
R/V Tankai-maru (JFA) 3  
R/V Wakataka-maru (TNFRI/JFA) 2  
Total 80 51
表2 Numbers of cruises in the ship list.
M/S: Merchant Ship, R/V: Research Vessel, S/V: Survey Vessel, T/S: Traning Ship
略記
CARINA: Carbon Dioxide In North Atlantic Ocean
CDIAC: Carbon Dioxide Information Analysis Center
GEOSECS: Geochemical Ocean Sections Study
IOS: Institute of Ocean Sciences
JAMSTEC: Japan Marine Science and Technology
JGOFS: Joint Global Ocean Flux Study
JODC: Japan Oceanographic Data Center
MIRC: Marine Information Research Center
NODC: National Oceanographic Data Center
WOCE: World Ocean Circulation Experiment
参考ウェブサイト
[2]CDIAC(海洋データ部門): http://cdiac.esd.ornl.gov/oceans/home.html
[4]WOCE Hydrographic Program: http://whpo.ucsd.edu/index.htm








日本財団図書館は、日本財団が運営しています。

  • 日本財団 THE NIPPON FOUNDATION