データリポジトリとLLM勉強会
趣旨
データリポジトリを対象に、大規模言語モデルLLM(生成AI)をどのように活用するかを考える勉強会です。 LLM勉強会を参考に、気軽に情報交換できる場とし、実験的な試みやコードについても共有できるようにしたいと考えています。
データリポジトリにおける利活用をユースケースとし、以下のトピックなどについて議論する予定です。
1. タスクの効率化
- メタデータ作成の効率化
- データセット論文からのメタデータ自動生成
- メタデータの翻訳
- 関連論文の要約
- データセット利用方法の整理
2. 検索の高度化
- 自然言語文の直接入力による意味的な検索
- 自然言語文をクエリ言語(例:SPARQL)に変換
- 検索結果の整理や要約、複数DBを統合した検索結果表示
- ユーザのレベルに応じた検索結果生成
3. 利活用の円滑化
- LLM拡張用のメタデータの付与
- データセットのスキーマを反映したコード生成
- データセット分析・可視化のためのコード生成
勉強会
第3回勉強会(2024年7月12日) オンライン参加者19名
-
LLMによる社会調査のメタデータ抽出 -SSJデータアーカイブのデータ公開効率化の検討-
西村幸浩、入山浩一(東京大学社会科学研究所)
[ 発表資料 ] [ コード ] -
Mahalo Button:研究データ利用状況把握へのLLMの活用+IIIF Tsukushi Viewer:日本古典籍へのLLMの活用
北本 朝展(国立情報学研究所/ROIS-DS人文学オープンデータ共同利用センター)
[ 発表資料 ]
第2回勉強会(2024年3月1日) オンライン参加者16名
- LLMの基礎(北本) [松尾研LLM 大規模言語モデル講座 2023コンテンツ 公開ページ]
- RAGに関する実験の紹介(神谷)
- 研究データ検索におけるChatGPT活用検討(清水)
第1回勉強会(2024年1月26日) オンライン参加者20名
- 趣旨説明(NII 北本) [資料]
- 自己紹介/今後のテーマに関する議論
参加申込
参加申込フォームに情報をお送りください。メーリングリストに登録いたします。