地球環境データ統合・解析プラットフォーム事業（DIAS）
国立情報学研究所（NII）チーム

トップページ

データリポジトリとLLM勉強会

趣旨

データリポジトリを対象に、大規模言語モデルLLM（生成AI）をどのように活用するかを考える勉強会です。 LLM勉強会を参考に、気軽に情報交換できる場とし、実験的な試みやコードについても共有できるようにしたいと考えています。

データリポジトリにおける利活用をユースケースとし、以下のトピックなどについて議論する予定です。

1. タスクの効率化

メタデータ作成の効率化
データセット論文からのメタデータ自動生成
メタデータの翻訳
関連論文の要約
データセット利用方法の整理

2. 検索の高度化

自然言語文の直接入力による意味的な検索
自然言語文をクエリ言語（例：SPARQL）に変換
検索結果の整理や要約、複数DBを統合した検索結果表示
ユーザのレベルに応じた検索結果生成

3. 利活用の円滑化

LLM拡張用のメタデータの付与
データセットのスキーマを反映したコード生成
データセット分析・可視化のためのコード生成

勉強会・イベント

Japan Open Science Summit 2026 （2026年6月26日）オンライン参加者136名

セッション：データリポジトリにおける生成AI活用

生成AIによる「やわらかい」メタデータとデータリポジトリの付加価値
北本朝展（国立情報学研究所）
[ 発表資料 ]
ローカルLLMによる社会調査メタデータ作成 ― SSJDAにおけるデータ整備の試み
西村幸浩（立教大学・東京大学）・入山浩一（東京大学）
[ 発表資料 ]
研究データの可視化・検索性向上を目的としたメタデータ変換システムへの生成AIの援用
能勢正仁（名古屋市立大学）
[ 発表資料 ]
国立環境研究所における地球環境データベースを用いた分野特化型LLM構築に向けた初歩的試行実験
山下陽介（国立環境研究所）
[ 発表資料 ]
国際データ連携+エージェントAIによるオンデマンド知識抽出
石井真史（国立研究開発法人物質・材料研究機構）
[ 発表資料 ]

第3回勉強会（2024年7月12日）オンライン参加者19名

LLMによる社会調査のメタデータ抽出 -SSJデータアーカイブのデータ公開効率化の検討-
西村幸浩、入山浩一（東京大学社会科学研究所）
[ 発表資料 ] [ コード ]
Mahalo Button：研究データ利用状況把握へのLLMの活用＋IIIF Tsukushi Viewer：日本古典籍へのLLMの活用
北本朝展（国立情報学研究所／ROIS-DS人文学オープンデータ共同利用センター）
[ 発表資料 ]

第2回勉強会（2024年3月1日）オンライン参加者16名

LLMの基礎（北本） [松尾研LLM 大規模言語モデル講座 2023コンテンツ公開ページ]
RAGに関する実験の紹介（神谷）
研究データ検索におけるChatGPT活用検討（清水）

第1回勉強会（2024年1月26日）オンライン参加者20名

趣旨説明（NII 北本） [資料]
自己紹介／今後のテーマに関する議論

参加申込

参加申込フォームに情報をお送りください。メーリングリストに登録いたします。

関連資料

データリポジトリにおける大規模言語モデルの利活用を考える [ 資料 ]