💡

【データ抽出方法】Q&Aサイトからデータを抽出する方法|quoraを例とし

2021/07/27に公開

01.jpeg

Quora、StackOverflowなどのWebサイトは、ユーザー参加型の「知識共有プラットフォーム」です。Q&Aサービスサイトとして「コンテンツの質の高さ」という特徴をがあります。このWebサイトで質問を巡って展開された討論や議論も非常に価値を持っています。なぜなら、これは単なるソーシャルメディアではなく、影響力を持っているコミュニティと「世論形成」の場です。この記事では、Quoraの回答をスクレイピング(抽出する)する方法を紹介します。

元記事https://www.octoparse.jp/blog/how-to-scrape-qa-sites-like-quora/

1、なぜQuoraをスクレイピングするのですか?

Quoraのデータに興味を持っているのは誰でしょうか。結論としては、意外にマーケターと企業の方が多いです。少し予想外のことですが、Quoraに関する統計を見たら、その理由をだいぶ分かりました。

これらの四つのデータを見てみましょう。

①Quoraには月間3億人のアクティブユーザーがいます。

②平均でユーザーはQuoraに毎日4分以上費やしています。

③アクセス量から見ると、Quoraは世界でTOP80のWebサイトです。

④Google検索では、6,500万件以上のQuora [dot] comの結果があります。

1.1)Quoraのデータが何をできますか?
🔹感情分析
政治、ブランド、株式市場などに関する質問をスクレイピングし、感情分析を行うことができます。これはマーケティング、世論調査の分野に活用できます。

🔹NLPと機械学習
Quoraのユーザーはほとんどは存在する人間(ロボートではない)であり、日常の用語でWeb上の質問を答えます。それで、これらの回答をスクレイピングすることによって、MLモデルや自然言語処理(NLP)のトレーニングに非常に役立ちます。

🔹インテリジェントインフルエンサーマーケティング
Quoraで商品を宣伝することができます。特定のニッチのインフルエンサーにタグを付けて、ブランドを宣伝することもできます。特定のニッチから質問やユーザープロファイルなどをスクレイピングすることで、ブランドの宣伝に役に立ちます。

🔹潜在顧客の獲得とコンテンツマーケティング
ユーザーが提出された問題から、このユーザーは潜在顧客かどうかを判断することができます。たとえば、ITサービス会社の場合、「eコマースWebサイトの開発にはどれくらいの費用がかかりますか?」などの質問をする人が潜在顧客として判断できます。QuoraのQ&Aをスクレイピングすることで得られる洞察は、コンテンツマーケティング戦略の制定に役に立ちます。

2、Quoraを無料でスクレイプする方法は?

以下の方法でQuoraをスクレイプできます。

🔸オープンソースであるQuora-scraper
🔸ノーコードでスクレイピングツールであるOctoparse

2.1)オープンソースであるQuora-scraper
メリット:コードを書くことで、独自のスクリプトを作成します。データの取得に対して、高度なカスタマイズ性があります。

デメリット:サイトの構造がいつも変わっています。スクリプトを定期的に更新しなければなりません。または、カスタマイズを行うには、プログラミング技術が必要です。

Quora-scraperに比べ、より簡単な解決策はノーコードでデータを自動的に抽出できるスクレイピングツールです。Octoparseはプログラミング知識がなくても、誰でも簡単に利用できる無料なスクレイピングツールです。

2.2)Octoparseを使用してQuoraをスクレイピングする
それでは、Octoparseを用いてQuora株式市場フィードからデータを抽出しましょう。

ターゲットURL:https://www.quora.com/topic/Stock-Markets-2

事前準備

Octoparseをダウンロード

https://www.octoparse.jp/Download/windows

Octoparseにログイン/登録する

登陆画像.png

ステップ1:「新規作成」ボタンをクリックしてから[カスタマイズタスク]をクリックして、新しいタスクの作成を開始します。

03.png

🔸「抽出開始」のところに直接にURLを貼り付けて、「抽出開始」をクリックし、新しいタスクの作成も開始します。

ステップ2:ターゲットのURLを入力し、[保存]をクリックします。

04.png

ステップ3:[Webページデータの自動検出]をクリックします。

05.png

自動検出機能は、無限スクロール機能でWebサイトを自動的にチェックし、Octoparseはユーザーが欲しいデータを推測し、ユーザーが何も設定しなくて、データを自動的に抽出することです。

06.png

出来た!データをすべて抽出できた。
07.png

データを抽出した後に、まだいくつかのカスタマイズを行う必要があります。

ワークフローのところに、**[ステップ設定]**をクリックします。

そして、フィールドを以下のように名前をつけます:

🔹質問
🔹質問のURL
🔹画像のURL
🔹ユーザープロファイル
🔹ユーザー名
🔹更新日
🔹ユーザータグライン
🔹質問の説明

**「保存」「実行」**をクリックし、データのスクレイピングを開始します。

10.png

データ抽出のタスクはローカルあるいはクラウドで実行することができます。クラウドでスクレイピングの場合はデータ抽出のスケジューリングができます。クラウドでデータ抽出の方がいつでも、どこでも、データをスクレイピングできます。より柔軟性のある機能と言えます。
11.png

そして、スクレイピングが実行し、スクレイピングが完了するまで少々待ちください。実行完了したあとに、OctoparseはCSV、XLS、JSON、HTML形式でデータをエクスポートするか、あるいはデータベース(ローカル/クラウド)に保存するかをすることができます。

12.png

JSONでダウンロードした後に、データプレビューは以下のようになります。
json.png

3、スクレイピングツールとしてOctoparseを選択する理由

Octoparseは、AIを活用した無料なWebスクレイピングツールです。 Octoparseを使用して、複雑なWeb構造のあるサイトからデータを抽出することも可能です。さらに、企業向けのデータサービスもあります。以下は、 Octoparseのいくつかの優れた機能を紹介させていただけます。

クラウドデータ抽出
Octoparseはクラウドデータ抽出の機能があるため、ハードウェアや人的資源の負担はいっさいにありません。

スクレイピング防止アーキテクチャをバイパスする
IPプロキシとユーザーエージェントをローテーションして、単純なスクレイピング防止技術を克服できます。「画像認証」などのキャプチャの問題が発生した場合は、ブラウズモードに切り替えて、手動で認証し、スクレイピングをすることができます。

AJAXと無限スクロール機能
TwitterなどのWebサイトが「もっと見る」のデータを自動的に読み込む場合は、Octoparseは自動的に無限スクロール機能を備えています。もうちろん、手動で設置することもできます。

データ抽出をスケジューリングする
クラウドでスクレイピングをする時に、スクレイピングを実施する時間を設定することができます。

テンプレートの用意
Octoparseはユーザーに、Eコマース、ソーシャルメディア、金融、検索、エンターテインメントなどのさまざまなデータ抽出のテンプレートを用意しております。自分のデータニーズに応じて、テンプレートを選択し、何も設定を要らずに直接にデータ抽出をできます。

Windows版とMac版
WebスクレイピングツールであるOctoparseは、MacとWindowsのどちらのユーザーであっても利用することができます。

4、結論

ソーシャルメディアからデータを抽出し分析すると、ユーザーが何を思っているのか、どんなことに興味を持っているのかを明らかにすることができます。データを抽出し収集することによって、ビジネスの洞察力を得ることができます。ここにいくつかのスクレイピングに関する記事をお勧めます。興味があれば、ぜひご覧下さい。

【レビュー活用】ECビジネスの成長に欠かせないレビュー収集方法
すぐ出来る!データ収集をTwitterから学ぼう
【Amazonから学ぶ】EC事業を成長させる価格競争方法徹底解説!

Discussion