🐡
XMLファイルで文字列のみを抽出して処理する方法
XMLファイルで文字列のみを抽出して処理する機会がありました。
このニーズに対して、以下のようなスクリプトにより、実現することができました。
soup = BeautifulSoup(open(path,'r'), "xml")
elements = soup.findChildren(text=True, recursive=True)
ポイントは、text=True
を与えている点で、テキストノードのみを取得することができました。
参考になりましたら幸いです。
Discussion