地球環境データ統合・解析プラットフォーム事業(DIAS)
国立情報学研究所(NII)チーム

トップページ

データリポジトリとLLM勉強会

趣旨

データリポジトリを対象に、大規模言語モデルLLM(生成AI)をどのように活用するかを考える勉強会です。 LLM勉強会を参考に、気軽に情報交換できる場とし、実験的な試みやコードについても共有できるようにしたいと考えています。

データリポジトリにおける利活用をユースケースとし、以下のトピックなどについて議論する予定です。

1. タスクの効率化

  1. メタデータ作成の効率化
  2. データセット論文からのメタデータ自動生成
  3. メタデータの翻訳
  4. 関連論文の要約
  5. データセット利用方法の整理

2. 検索の高度化

  1. 自然言語文の直接入力による意味的な検索
  2. 自然言語文をクエリ言語(例:SPARQL)に変換
  3. 検索結果の整理や要約、複数DBを統合した検索結果表示
  4. ユーザのレベルに応じた検索結果生成

3. 利活用の円滑化

  1. LLM拡張用のメタデータの付与
  2. データセットのスキーマを反映したコード生成
  3. データセット分析・可視化のためのコード生成

勉強会

第3回勉強会(2024年7月12日) オンライン参加者19名

  1. LLMによる社会調査のメタデータ抽出 -SSJデータアーカイブのデータ公開効率化の検討-
    西村幸浩、入山浩一(東京大学社会科学研究所)
    [ 発表資料 ] [ コード ]
  2. Mahalo Button:研究データ利用状況把握へのLLMの活用+IIIF Tsukushi Viewer:日本古典籍へのLLMの活用
    北本 朝展(国立情報学研究所/ROIS-DS人文学オープンデータ共同利用センター)
    [ 発表資料 ]

第2回勉強会(2024年3月1日) オンライン参加者16名

  1. LLMの基礎(北本) [松尾研LLM 大規模言語モデル講座 2023コンテンツ 公開ページ]
  2. RAGに関する実験の紹介(神谷)
  3. 研究データ検索におけるChatGPT活用検討(清水)

第1回勉強会(2024年1月26日) オンライン参加者20名

  1. 趣旨説明(NII 北本) [資料]
  2. 自己紹介/今後のテーマに関する議論

参加申込

参加申込フォームに情報をお送りください。メーリングリストに登録いたします。

関連資料

  1. データリポジトリにおける大規模言語モデルの利活用を考える [ 資料 ]