Closed3
はてなブログの投稿一覧からVectorDBを作成する
フォーマットはMovableType形式らしい。
AUTHOR: kun432
TITLE: 今後の技術ネタはzennに移行することにした
BASENAME: migrating-to-zenn
STATUS: Publish
ALLOW COMMENTS: 1
CONVERT BREAKS: 0
DATE: 01/29/2023 17:07:55
CATEGORY: その他
IMAGE: https://cdn.blog.st-hatena.com/images/theme/og-image-1500.png
-----
BODY:
<p>今後の技術系の記事はzennで書くことにしました。</p>
<p><iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fzenn.dev%2Fkun432" title="kun432さんの記事一覧" class="embed-card embed-webcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 155px; max-width: 500px; margin: 10px 0px;" loading="lazy"></iframe></p>
<p>これまでは技術ネタも個人的なポエムもひっくるめて全部このブログで書いていたのだけど、</p>
(snip)
JSONに変換したほうが使いやすい。以下のレポジトリ(のhatenablogブランチ)にあるmt2json.rbを使わせてもらう。
Colaboratoryで。
!git clone -b hatenablog https://github.com/hitode909/scrapbox_chatgpt_connector
!cp scrapbox_chatgpt_connector/mt2json.rb
!chmod +x mt2json.rb
エクスポートしたTXTファイルをアップロードして、mt2json.rbに食わせる。
!./mt2json.rb kun432.hatenablog.com.export.txt > kun432.hatenablog.com.export.json
こんな感じでできる。
{
"title": "LipSurfで自作プラグインを作ってブラウザの音声操作を拡張する① 〜Hello Worldプラグイン〜",
"lines": [
"この記事は、Voice User Interface Advent Calendar 2022 の1日目の記事です。",
"前回の記事で紹介した音声でブラウザを操作できる「LipSurf」ですが、プラグインによる音声操作の拡張が可能です。",
"標準でもいくつかプラグインがインストール済になっています。",
"そして自分で独自のプラグインを開発することもできます。",
"今回は、公式ドキュメントにある5 Minute Quick Startというチュートリアルがあるのでこれにしたがって、「ハローワールド」と発話するとJavaScriptで「Hello, Developer!」というアラートが表示されるプラグインを作成してみます。",
"目次",
"目次",
"前提",
"1. 事前準備",
"2. lipsurf-cliでプラグインを作成",
"3. Chrome拡張でプラグインをインポート",
"プラグインのコードを見てみる。",
"まとめ",
"前提",
"LipSurfプラグインの開発にはNode.js環境が必要ですが、環境がない場合でもできるようにGoogle Colaboratoryでやってみました。Colaboratoryのノートブックは以下で公開しています。",
"https://gist.github.com/kun432/fd6de9b7a1bde15433c662a0289a6c23",
"上から順番に実行していけばよいだけなのですが、せっかくなので説明も含めてやっていきましょう。",
"あと、予めLipSurfのChrome拡張をインストールしておいてください。",
"1. 事前準備",
"Google ColaboratoryはPythonで使うのが一般的かと思いますが、一応Node.jsも使えます。ただし、LipSurfプラグインの開発にはいくつか事前準備が必要になります。",
"まずデフォルトのNode.jsのバージョンを確認します。",
"!node -v",
"!which node",
(snip)
を見る限り、
- OpenAIのembeddings APIを使ってる
- vectorstoreとしてpickleを使ってる
って感じ。
もうやらない。クローズ。
このスクラップは2024/02/14にクローズされました