研究データへのDOI付与
DOIとは?
DOI(デジタルオブジェクト識別子)とは、国際DOI財団 (The International DOI Foundation)が運営する世界的な識別子システムです。当初の目的は、出版社がウェブサイトで公開する学術論文の所在情報として、リンク切れになりうるURLよりも安定したIDシステムを構築する点にありました。そして現在では、学術論文情報にDOIを付記することは標準的な慣習となり、それが引用指標や研究評価などのシステムにも使われるようになりました。この成功を受けて、同様のモデルを他の学術情報にも適用する機運が高まりました。中でも研究データは、DOIの活用に向けた研究開発が最も活発な領域です。
世界的に見れば、2009年に設立されたDataCiteが、研究データへのDOI付与に中心的な役割を果たしています。日本では国内学術機関の4機関が共同運営するジャパンリンクセンター(JaLC)が中心的な役割を果たしており、2014年10月に始まった「研究データへのDOI登録実験プロジェクト」の成果として、2015年10月に「研究データへの DOI 登録ガイドライン」を取りまとめています。DIASもこのプロジェクトに参画し、ガイドラインの取りまとめに積極的に貢献しました。ガイドラインの公表を受けて、日本国内ではいくつかの学術機関が研究データへのDOI付与を開始し、DIASでもDOI付与を開始するための体制の整備とシステムの改修を進め、2017年3月28日からDOI付与を開始しました。
DOIとオープンサイエンス
研究データへのDOI付与は、あらゆる人々が容易にアクセスできるデータ・情報の提供を目指すというオープンサイエンスの基盤となるものです。
第一に、データの所在情報をDOIで示すことは、データの利活用につながります。インターネット上の所在情報としてはURLが広く使われていますが、システムの変更やサーバの移転などで所在不明となりうるURLは永続的な所在情報とは言えません。一方DOIでは、DOIのシステムが所在情報を一元的に管理するため変更に強く、データが将来もアクセスできることを期待しつつ安心してデータを活用できるようになります。
第二に、論文等にデータのDOIを明記することは、データの評価につながります。DOIの文字列によって論文等の利用データを特定できるため、出現回数をカウントすればデータの利用状況を追跡できます。これによって、需要が大きいデータを公開した人の評価を高めるなど、データ公開に関わるインセンティブを高めることで、地球環境情報の専門家となる人材育成にもつながることが期待できます。
機械学習や人工知能などのデータ駆動型研究を推進するには、良質なデータのオープン化やステークホルダー間での共有を進めることが鍵を握ることは世界的にも認識されています。それにも関わらず日本では、オープンなデータ基盤を持続的に成長させるためには人材と資金の確保が不可欠であることがまだ十分に理解されていません。研究データへのDOI付与は、こうしたデータ基盤を高度化するための出発点となるものです。まず、既にDIASに収録されているデータに対して、DOIを付与する条件に該当するデータを対象として遡及的にDOIを付与します。次に、地球環境情報分野において価値が高いデータを発掘して収録し、それにもDOIを付与して公開を促進します。データ論文への投稿などでもDOIが必要となるため、DIASで審査を受けてDOI付与済みデータを公開したいという研究者も出てくるでしょう。
最終的には、データのオープン化を通して利用が広がり、データ公開者の評価が高まり、データを取り巻くエコシステムが永続的に回っていく環境を作り出すことが目標です。とはいえ、まだ長い道のりが残っています。DIASは地球環境情報分野における中核的プラットフォームとして、学理の深化と新産業の創出の両面から、地球環境情報のための研究開発と利用促進の活動を継続していく計画です。
そのための取り組みの一つにMahalo Buttonがあります。これはデータセット利用状況を集約するためのボタンを、データセット公開ページに設置するもので、データセットを利用した研究成果のDOIをボタンからリンクしています。すべてのデータセットおよび研究成果にDOIを付与することができれば、データセットの貢献をDOIのネットワークを用いて評価することも可能になるでしょう。
DIASにおけるDOI付与に関する参考資料
- Open Science Activities in DIAS (2017-03-01)
- 研究データへのDOI付与が意味すること ~DIASにおける経験を踏まえて~ (2017-03-10)
- DOIを中心とした識別子システムの全体像 (2017-08-26)
DIASでDOIが付与されたデータセットのリスト:DataCite Search