Closed1
Wikipediaのdocタグから取り出しーメモー
はじめに
本記事は、以下のページで出力したWikipediaのdocタグに囲まれたテキストから中身を抽出するためのコードです。
動作内容
docタグに囲まれたコードからテキストを抽出します。
ファイル名.txtを読み取り、それを出力先のディレクトリのパスに保存します。
docタグのなかには、title=""というふうにWikipediaのページのタイトルが含まれているため、それをタイトルとしてテキストファイルを保存します。
以下コードになりますので、ご自分の環境に合わせてアレンジしてください。
コード
from bs4 import BeautifulSoup
# ファイルを開く
with open('ファイル名.txt', 'r',encoding="utf-8") as f:
contents = f.read()
soup = BeautifulSoup(contents, 'lxml')
# 各<doc>タグを見つける
docs = soup.find_all('doc')
save_path = '出力先パス' # 保存先のディレクトリを指定します
for doc in docs:
# タイトルを取得
title = doc['title']
# 記事本文を取得
text = doc.get_text()
# 新しいテキストファイルを作成し、記事本文を書き込む
with open(f'{save_path}/{title}.txt', 'w',encoding="utf-8") as f:
f.write(text)
このスクラップは2023/11/28にクローズされました