Open6

XPathまとめ

Kumamoto-HamachiKumamoto-Hamachi

XPathとは

XPath (XML Path Language)とは、ツリー構造となっているXML/HTMLドキュメントからの要素や属性値などを指定するための簡潔な構文(言語)です。
XPathはスラッシュ “/” で区切りながら階層を記述し、基準となるノードから別のノードを指定できます。
ルート要素(ドキュメントの一番上の要素)から始まり、中にあるすべての要素を経由して目標要素に至るXPathは、絶対XPathと呼ばれます。

※参考:【図解】XPathとは?基本概念から書き方までわかりやすく解説! | Octoparse

開発者コンソールでアクセスできる

メニューの[Copy] → [Copy XPath ] でその要素を取得するためのXPathがクリップボードにコピーされます

指定

タグ、属性、テキスト、タグ関係

関数

Kumamoto-HamachiKumamoto-Hamachi

用語

  • ロケーションパス

ロケーションパスとは、ツリー構造から特定の要素を指定するための式のことです。
ロケーションパスは、URLのように『/』で要素を繋げて書きます。

  • //を用いて途中までのパスを省略

  • 要素の位置を指定するposition

  • 軸・ノードテスト・述部

軸::ノードテスト[述語]

軸:ツリー上の位置関係を指定する(self、child,,,)
ノードテスト:選択するノードの型と名前
述部:選択するノードの集合を、任意の式を使用してさらに細かく指定

参考:クローラ作成に必須!XPATHの記法まとめ - Qiita

  • 任意の属性を取得(ワイルドカード):*(アスタリスク)

  • 7種類のノード
    ルートノード(最上位ノード)
    要素ノード(XMLの要素を表すノード)
    テキストノード(開始タグと終了タグで挟まれた文字列データ)
    属性ノード(要素内で指定された属性をあらわすノード)
    名前空間ノード(名前空間を表すノード)
    処理命令ノード(処理命令を表すノード)
    コメントノード(コメントを表すノード)
    XPath (XML Path Language) とは