Closed2024/02/07にクローズ4

llama.cppでkarakuri-lm-70b-chat

ローカル LLM

元はこちら

llama.cppでGPUオフロードはここにまとめてる。

RAM: 96GB
VRAM: 24GB（RTX4090）

q4_K_M。適当に-ngl 30ぐらいでまず試してみる。

$ ./main -m ./karakuri-lm-70b-chat-v0.1-q4_K_M.gguf -p "<s>[INST] <<SYS>> <</SYS>> 週末に日帰りで東京に遊びに行こうと思っています。日帰りなので、短時間で回れる おすすめの観光プランを教えてください。 [ATTR] helpfulness: 4 correctness: 4 coherence: 4 complexity: 4 verbosity: 4 quality: 4 toxicity: 0 humor: 0 creativity: 0 [/ATTR] [/INST] " -ngl 30

最大81レイヤー

llm_load_tensors: offloaded 30/81 layers to GPU

東京には日帰りでも楽しめる観光スポットがたくさんあります。以下に短時間で回れるおすすめの観光プランをいくつかご紹介します。

東京スカイツリーと押上・向島エリアの散策：東京スカイツリーは東京の象徴的な建造物で、展望台からの眺めは最高です。周辺には、伝統的な街並みが残る押上や向島のエリアがあり、散歩しながら下町の雰囲気を楽しむことができます。

渋谷から原宿、表参道へのショッピング＆グルメツアー：若者文化の発信地である渋谷・原宿と高級なショッピングストリートのある表参道を散策するプランです。各エリアにはおしゃれなカフェやレストランがたくさんあり、ランチやスイーツタイムにも困りません。

皇居周辺の歴史散歩：皇居周辺は東京の中心でありながら緑が多く、歴史的建造物も見ることができます。皇居東御苑（旧江戸城本丸・二の丸・三の丸）や明治神宮外苑、靖国神社など、散歩しながら日本の歴史を感じられるエリアです。

お台場観光＆夜のレインボーブリッジ鑑賞：お台場は東京湾に浮かぶ人工島の観光スポットで、ショッピングモールやアミューズメント施設が充実しています。夜には、ライトアップされたレインボーブリッジを鑑賞するのもおすすめです。

上野公園とアメ横のグルメツアー：上野公園は博物館や美術館、動物園のある緑豊かな公園です。周辺にはアメヤ横丁（アメ横）があり、活気あふれる市場で食べ歩きやショッピングが楽しめます。

これらのプランは、どれも短時間で東京ならではの体験ができるようになっています。具体的な移動時間やスケジュールは、交通状況や個人的な好みに合わせて調整してください。

llama_print_timings:        load time =  143809.74 ms
llama_print_timings:      sample time =      83.40 ms /   351 runs   (    0.24 ms per token,  4208.68 tokens per second)
llama_print_timings: prompt eval time =    3717.29 ms /    98 tokens (   37.93 ms per token,    26.36 tokens per second)
llama_print_timings:        eval time =  219632.61 ms /   350 runs   (  627.52 ms per token,     1.59 tokens per second)
llama_print_timings:       total time =  223541.41 ms /   448 tokens

Wed Feb  7 03:09:41 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 545.23.08              Driver Version: 545.23.08    CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 4090        On  | 00000000:01:00.0 Off |                  Off |
|  0%   50C    P2              60W / 450W |  16664MiB / 24564MiB |      9%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

-ngl=40

llama_print_timings:        load time =    2779.35 ms
llama_print_timings:      sample time =      68.34 ms /   296 runs   (    0.23 ms per token,  4331.54 tokens per second)
llama_print_timings: prompt eval time =    3139.51 ms /    98 tokens (   32.04 ms per token,    31.22 tokens per second)
llama_print_timings:        eval time =  151312.90 ms /   295 runs   (  512.93 ms per token,     1.95 tokens per second)
llama_print_timings:       total time =  154716.45 ms /   393 tokens

Wed Feb  7 03:12:13 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 545.23.08              Driver Version: 545.23.08    CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 4090        On  | 00000000:01:00.0 Off |                  Off |
|  0%   55C    P2              63W / 450W |  21462MiB / 24564MiB |     13%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

-ngl=45はさすがにギリ。。。

llama_print_timings:        load time =    2894.89 ms
llama_print_timings:      sample time =      40.59 ms /   186 runs   (    0.22 ms per token,  4582.41 tokens per second)
llama_print_timings: prompt eval time =    1947.28 ms /    98 tokens (   19.87 ms per token,    50.33 tokens per second)
llama_print_timings:        eval time =   83869.08 ms /   185 runs   (  453.35 ms per token,     2.21 tokens per second)
llama_print_timings:       total time =   85912.32 ms /   283 tokens

Wed Feb  7 03:16:02 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 545.23.08              Driver Version: 545.23.08    CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 4090        On  | 00000000:01:00.0 Off |                  Off |
|  0%   58C    P2              67W / 450W |  23890MiB / 24564MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

ちょいミスってるけど、めちゃめちゃ優秀じゃない？噂通り。

$ ./main -m ./karakuri-lm-70b-chat-v0.1-q4_K_M.gguf  \
  -ngl 40 \
  -c 4000 \
  -p "<s>[INST] <<SYS>> <</SYS>>'Content'を明確でシンプルな命題に分解し、文脈に関係なく解釈できるようにしてください。\n1. 複文を単純な文に分割する。可能な限り、入力の元の言い回しを維持する。\n2. 付加的な説明情報を伴う名前付きエンティティについては、この情報を独自の個別の命題に分割する。\n3. 名詞または文全体に必要な修飾語を追加し、代名詞（例：「これ」「あれ」「それ」、「彼」、「彼女」、「彼ら」、「彼女ら」）を、それらが参照するエンティティのフルネームで置き換えることで、命題を非文脈化する。\n4. 結果は、JSONでフォーマットされた文字列のリストとして表示される。\n\n----\nドウデュース（欧字名:Do Deuce、2019年5月7日 - ）は、日本の競走馬[1]。主な勝ち鞍は2021年の朝日杯フューチュリティステークス、2022年の東京優駿、2023年の有馬記念。\n\n馬名の意味は「する＋テニス用語（勝利目前の意味）」[7]。2021年のJRA賞最優秀2歳牡馬である。\n\n戦績\n\nデビュー前\n\n2019年5月7日、北海道安平町のノーザンファームで誕生。松島正昭が代表を務める株式会社キーファーズの所有馬となり、ノーザンファーム空港牧場で育成の後、栗東トレーニングセンターの友道康夫厩舎に入厩した。\n\n2歳（2021年）\n\n9月5日に小倉競馬場で行われた2歳新馬戦（芝1800メートル）に武豊鞍上で出走。1番人気に推されると、レースは直線でガイアフォースとの追い比べをクビ差制してデビュー勝ちを果たした[8]。\n\n次走はリステッド競走のアイビーステークスを選択。2番人気に推され、レースでは追い比べから抜け出すと、最後は追い込んできたグランシエロをクビ差凌いで優勝、デビュー2連勝とした[9]。\n\n続いて朝日杯フューチュリティステークスに出走。重賞勝ち馬セリフォスやジオグリフをはじめとした自身と同じ無敗馬が多く顔を揃える中[10]、3番人気に支持される。レースでは直線で外に出すと、先に抜け出していたセリフォスを半馬身差で差し切り優勝、無傷3連勝でGI初制覇を果たした[11]。鞍上の武豊はこの競走22回目の挑戦で初制覇[注 1]となり、日本の中央競馬 (JRA) の平地GI完全制覇までホープフルステークスを残すのみとした[11]。また馬主である松島及びキーファーズにとっては初の単独所有馬によるGI勝利、並びに国内GI初制覇となった[12]。\n-----\n[ATTR] helpfulness: 4 correctness: 4 coherence: 4 complexity: 4 verbosity: 4 quality: 4 toxicity: 0 humor: 0 creativity: 0 [/ATTR] [/INST] "

1. Do Deuceという名の競走馬が、2019年5月7日にノーザンファーム空港牧場で誕生した。

2. Do Deuceは友道康夫厩舎に所属し、武豊が騎手を務めた。

3. 2021年9月5日の小倉競馬場での新馬戦（芝1800メートル）で、Do Deuceはガイアフォースとの追い比べを制して勝利した。

4. Do Deuceの次走はアイビーステークスだった。2番人気に推され、レースでは逃げ切り、グランシエロをクビ差で破って優勝した。

5. Do Deuceは次の朝日杯フューチュリティステークスに出走し、セリフォスやジオグリフをはじめとする無敗馬と競った。3番人気の支持を受け、直線での追い上げで先に抜け出したセリフォスを半馬身差で差し切り、勝利を収めた。

6. 武豊はこの競走に22回目の挑戦で、初めての優勝となった。これにより、日本の中央競馬（JRA）の平地GI完全制覇までホーリブルステークスが残るのみとなった。

7. 松島及びキーファーズにとって、Do Deuceの勝利は初の単独所有馬によるGI勝利であり、国内GI初制覇であった。

8. Do Deuceは2021年のJRアワード最優秀2歳牡馬の称号を獲得した。

このスクラップは2024/02/07にクローズされました