Closed1

Wikipediaのdocタグから取り出しーメモー

はるはる

はじめに

本記事は、以下のページで出力したWikipediaのdocタグに囲まれたテキストから中身を抽出するためのコードです。
https://zenn.dev/haru330/articles/503c217c3cda1e

動作内容

docタグに囲まれたコードからテキストを抽出します。
ファイル名.txtを読み取り、それを出力先のディレクトリのパスに保存します。
docタグのなかには、title=""というふうにWikipediaのページのタイトルが含まれているため、それをタイトルとしてテキストファイルを保存します。
以下コードになりますので、ご自分の環境に合わせてアレンジしてください。

コード

from bs4 import BeautifulSoup

# ファイルを開く
with open('ファイル名.txt', 'r',encoding="utf-8") as f:
    contents = f.read()

soup = BeautifulSoup(contents, 'lxml')

# 各<doc>タグを見つける
docs = soup.find_all('doc')

save_path = '出力先パス'  # 保存先のディレクトリを指定します

for doc in docs:
    # タイトルを取得
    title = doc['title']
    # 記事本文を取得
    text = doc.get_text()
    # 新しいテキストファイルを作成し、記事本文を書き込む
    with open(f'{save_path}/{title}.txt', 'w',encoding="utf-8") as f:
        f.write(text)

このスクラップは2023/11/28にクローズされました