GSJ 地質図凡例LOD ― 地質単元・年代・層相を統合した知識基盤(ZFK)

1. 概要

GSJ 地質図凡例LOD(ZFK)は、産総研地質調査総合センター(GSJ)が刊行する5万分の1地質図幅の凡例情報を、 LegendUnit(岩相単元)/LegendAge(年代)/LegendFacies(層相)/LegendGroup(凡例構造)/LegendMap(図幅) の5種類のエンティティに分割し、JSONおよびRDF形式で公開する知識基盤データセットです。

本データセットの特徴は、従来は紙面やPDFの中で人が読むしかなかった地質図凡例を、機械が検索・参照・再利用できる知識基盤として公開した点にあります。 従来、地質図の凡例は紙面レイアウトやPDFに依存しており、人間が読むことを前提とする情報でした。 ここでいう「地質図の凡例」とは、単なる色分けの説明ではありません。 各地質単元の名称、年代区分、層相的なまとまり、およびそれらの階層構造を体系的に整理した、地質図解釈の中核となる知識構造を指します。 ZFKでは、この凡例情報を構造化し、一意識別子(URI)を付与することで、機械可読なLODとして検索・参照・統合利用できるようにしています。

あわせて、各図幅の図幅説明書をXMLとして構造化し、その中の記述箇所とLegendUnitやLegendFaciesなどの凡例要素を対応付けることで、 「凡例の項目」と「説明書中の詳細な記述」とを結び付けて参照できるようにしています。

現在、本データセット(ZFK)は関東周辺の72図幅を対象としています。 今後は、図幅説明書XMLの整備の進展に応じて対象範囲を段階的に拡大し、最終的には全国レベルでの整備完了を目指しています。

2. 背景とねらい

GSJの5万分の1地質図幅は、1950年代から刊行が始まり、現在までに約700図幅が整備されており、全国の約60%をカバーするに至っています。 これは、長期間にわたり段階的に整備が進められてきた日本の基盤的な地質情報であり、防災対策・資源評価・学術研究など、幅広い分野で利用されています。

一方で、この「長い歴史」と「広い整備範囲」は、凡例情報をデータとして扱ううえで大きな課題にもなっています。 各図幅は異なる時代・異なる著者の下で作成されており、作成当時の地質学的知見を背景として記載されています。 そのため、凡例の構造や命名、分類の粒度や表現方法には図幅ごとの違いがあり、単純な機械処理や横断的な比較を困難にしています。 すなわち、凡例は単なる「属性表」ではなく、図幅固有の文脈や解釈を伴った知識構造であり、図幅間で一律に扱えるものではありません。

こうした事情から、地質図の凡例情報を横断的に活用したり、他のデータセットと連携したりするためには、図幅ごとの特性を保持したまま、 意味構造を明示して参照可能にする仕組みが必要になります。 ZFKは、この課題に対応するため、凡例情報をエンティティごとに構造化してLODとして提供し、将来的な図幅間の対比や関連付けを可能にすることを目指しています。 さらに、防災・地盤・資源など他分野のデータセットと結び付けることで、横断的に活用できる知識基盤として展開していくことを想定しています。

3. データセットの構成

3-0. ZFKのアプローチ(処理パイプライン)

ZFKは単なるデータ公開ではなく、図幅説明書のXML化・JATS準拠変換、凡例情報の構造化とID付与、説明書との対応付け、 JSON/RDFによるリソース出力、検索APIの実装までを含む「地質図凡例情報の機械可読化パイプライン」として設計しています。 これにより、対象図幅の追加や更新に対しても適用可能な、再現性・拡張性・運用性を備えた知識基盤として整備している点が特徴です。

3-1. 主なエンティティ

ZFKでは、地質図凡例情報を次の5種類のエンティティとして扱います。

各エンティティには一意識別子(URI)を付与しており、JSONおよびRDFとして取得できます(拡張子指定またはコンテントネゴシエーションによる)。

現時点では72図幅について、数千件規模のLegendUnit・LegendAge・LegendFaciesなどの凡例要素を識別子化して公開しており、 今後も対象図幅の拡大にあわせて順次拡充していく予定です。

ZFKにおける地質図凡例情報のデータモデルとリソース関係

3-2. 図幅説明書XMLとの対応

図幅説明書は、各地質図幅の内容を詳しく説明した冊子です。 ZFKでは、この説明書をXMLとして構造化した上で、LegendUnitやLegendFaciesと対応付けています。 これにより、「地図上の地質単元」と「説明書中の記述」を、共通の識別子を通じて統合的に参照できます。

↑ 人間可読な情報を、機械利用可能な情報へ変換 ↓

3-3. 地質年代LODとの連携

年代要素については、別途整備した 「GSJ 地質年代LOD ― 時間軸参照のための基盤データセット」と連携しています。 凡例に含まれる年代情報は、地質年代LODの識別子を用いて参照されるため、 時間軸に沿った検索・分析や、他の地質データとの統合が行いやすくなっています。

さらに、ZFKは、防災情報・地盤情報・自然環境データなど、 他分野のオープンデータやLODとの連携を前提に設計されており、 地質知識をハブとした分野横断LODとして機能する可能性を持っています。 これにより、地質学の枠を超えた分野横断的な知識統合と、新たな応用展開を目指しています。

3-4. 信頼性とプロビナンス

凡例情報の背後には、図幅説明書に記述された詳細な地質解釈が存在します。 ZFKでは、LegendUnitやLegendFaciesなどの凡例要素と、対応する説明書XML・HTML、図版、地質図幅出版物情報を URIを通じて結び付けています。 具体的には、図幅説明書XMLへのパスやセクションID、図版画像へのリンク、出版物リソース(bibo:Document)への参照などを provenance / linkDataの形で保持し、各情報の出典や記述の根拠をたどれるように設計しています。

これにより、「何が書かれているか」だけでなく、「どの説明書の、どのセクションに基づいているか」まで含めて追跡可能な プロビナンスを明示できる、信頼性の高いLODとして運用しています。

3-5. 機械処理向けデータ構造と相互運用性

LegendUnitやLegendFaciesのリソースは、単なる名称や説明文の公開にとどまらず、 図幅内での識別IDや凡例記号、色コードといった表示用情報に加え、 重心座標、バウンディングボックス、GeoJSONへのリンクなど、 空間解析や描画処理に直接利用できる情報も機械処理向けに保持しています。

また、地質年代については地質年代LODの識別子と数値的な年代範囲(上限・下限Ma)を付与し、 層相・年代・図幅間の参照関係もリンクとして明示しています。 さらに、図幅説明書のテキストから抽出した岩相・構造・鉱物名などを「派生キーワード」として整理し、 分布記載の要約や鍵となる地名、図表数などの情報も含めて構造化しています。 これらの属性は、テキストマイニングや機械学習を含む自動処理や、外部データセットとのリンク付け、 分析用途での再利用を見据えて設計したものであり、機械可読性の高い地質知識リソースとなっています。

また、JSON構造や派生キーワードの設計においては、特定のアプリケーションに依存しない形で、AI・機械学習でも入力・解析しやすい構造となるようにしています。 利用者が大規模言語モデル(LLM)や各種AIツールにZFKのJSONレスポンスを直接入力し、 地質解釈の支援、要約、関連情報の抽出・照合などに活用することも想定しています。

3-6. ZFKの特徴と意義

ZFKの特徴と意義として、次の3点が挙げられます。

  1. 地質図凡例という、従来は紙面やPDFに依存していた知識構造をLODとして機械可読化した点
  2. 図幅説明書XMLとの厳密な対応付けにより、高い信頼性と豊富なプロビナンスを備えている点(研究データとしての堅牢性)
  3. WebGIS(地質図Navi)と統合され、一般利用環境で実稼働している社会実装済みのLODである点

これらの仕組みにより、地質知識の参照・統合・再利用を実際に支える基盤LODとして運用できる体制を整えています。

4. データおよびAPIへのアクセス方法

4-1. データセット説明ページ

ZFKデータセットの全体構成やメタデータについては、次のページで詳しく説明しています。

・データセット説明ページ:
https://gbank.gsj.jp/ld/dataset/zfk-legend/

4-2. APIエンドポイント一覧

主なAPIエンドポイントの例は次のとおりです。 実際のURLやパラメータ仕様の詳細は、API仕様ページに整理しています。

地点照会や検索などのクエリ系APIでは、レスポンス形式をJSONとしています。 JSON内で参照される各リソース(LegendUnitやLegendAge、LegendFaciesなど)については、個別のリソースURIにアクセスすることで、 JSONに加えてRDF(RDF/XMLなど)として取得することも可能です(拡張子指定またはコンテントネゴシエーションによる)。

4-3. リクエスト/レスポンス例

具体的なリクエストとレスポンスの例については、次のページにまとめています。

・APIリクエスト/レスポンス例(Swagger UI):
https://gbank.gsj.jp/ld/dataset/zfk-legend/swagger.html

OpenAPI 定義ファイル(JSON)

4-4. FAIRへの対応

識別子(URI)の安定的付与、HTTP経由の取得、JSON/RDFなどの機械可読形式での提供、利用規約の明示により、 ZFKはFAIR原則(Findable, Accessible, Interoperable, Reusable)に配慮して設計されています。 これにより、研究・行政・教育を含む多様な利用者が再利用しやすい公開方式を実現しています。

5. 利用イメージと応用例

ZFKは、研究者だけでなく、WebGIS開発者、他分野のデータ整備担当者、教育用途の利用者などにとっても、 地質図凡例を機械的に扱いやすくすることを意図して設計しており、次のような場面での利用を想定しています。

これらの利用において、ZFKは「地質知識を機械的に参照できる基盤」として機能し、 他のLODやオープンデータとの連携を通じて、新たな分析やサービス開発の土台となることを目指しています。

また、防災・地盤・農業・環境などの他分野データと組み合わせることで、 地質情報をハブとした分野横断型の解析やサービス開発に展開できる余地も大きく、 分野横断LODとしての発展可能性を持つデータセットと位置づけています。

ZFKは試験的実装にとどまらず、GSJが提供する公式サービス「地質図Navi」に組み込まれ、一般公開・運用されています。 地点照会による凡例取得、凡例ツリーの展開、分布ハイライトなどの機能として実利用環境で稼働しており、 概念実証にとどまらない社会実装済みのLODとなっています。

一方で、現時点では対象範囲が関東周辺の72図幅に限られていることや、 永続識別子の付与、長期保存に関する運用体制の強化など、今後の課題も残されています。 これらについては、図幅説明書XML整備の進展やGSJ内の公開・保存基盤との連携を通じて、 段階的に解決しながら全国展開に向けた拡張を進めていく予定です。

ZFKは、単なるデータ公開にとどまらず、「地質図の知識」を人間だけでなく機械も利用できる形で社会に開く、地質知識のインフラ(Knowledge Infrastructure)を目指す取組です。

6. ライセンスと出典

ZFKは、産業技術総合研究所 地質調査総合センターウェブサイト利用規約 (政府標準利用規約(第2.0版)準拠)のもとで公開しています。 利用条件の詳細については、次のページをご参照ください。

・利用規約:
https://www.gsj.jp/license/license.html

データの出典:産業技術総合研究所 地質調査総合センター「5万分の1地質図幅および図幅説明書」ほか。

7. お問い合わせ

本データセットの技術的内容やデータ仕様に関するお問い合わせは、 地質調査総合センター(GSJ LD担当) M-gsj-dataset-ml@aist.go.jp までお願いします。

(付録)地質図NaviにおけるZFK利用例

ZFKは、GSJが公開する地質情報統合ビューア「地質図Navi」に組み込まれており、Web地図上から直接利用できます。 地図上のZFKデータ対応エリア内の任意地点をクリックすると、その地点に対応する岩相単元(LegendUnit)が ZFK APIを通じて取得され、地質図Naviの情報表示ウインドウに単元名・年代・層相などの詳細情報が表示されます。

現在のZFKデータ対応エリア(赤)

地質図Navi の上部コマンドバーの「ZFKデータモード」ボタンを押すことで、ZFKを利用するモードに切り替わります。
ZFKデータ対応の図郭は淡グレー枠で表示され、その範囲内をクリックすることで地点の詳細情報が表示されます。

また、ZFKに基づく凡例ツリーを画面上に展開することで(「図幅凡例」タブ)、 図幅内の岩相単元を年代・層相の観点から一覧し、 対応する領域を地図上にハイライト表示することも可能です。 紙の地質図・凡例・図幅説明書で提供されてきた情報を、 WebGISとLODを通じて一体的に扱えることがZFKの特徴です。

地質図NaviにおけるZFK利用例 1: 地図上の地点をクリックすると、対応する岩相単元とその年代・層相がZFKから取得される。 あわせて、地図上には岩相単元の分布範囲が表示され、凡例ツリーや説明書の対応箇所の記述情報なども表示される。
地質図NaviにおけるZFK利用例 2: 凡例テーブル内の「層相」をクリックすると、対応する層相に属する岩相単元がZFKから取得され、 それらの分布範囲が表示される。
地質図NaviにおけるZFK利用例 3: キーワード検索の結果一覧から結果をクリックすると、対応する岩相単元・層相がZFKから取得され、 それらの分布範囲が表示される。