🗞️

生成AI週報(11/04~11/10)

2024/12/27に公開

こんにちは、ナウキャストでLLMエンジニアをしているRyotaroです。
11/04~11/10で収集した生成AIに関連する情報をまとめています。

※注意事項

内容としては自分が前の週に収集した生成AIの記事やXでの投稿・論文が中心になるのと、自分のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります

それでは行きましょう

ひとこと

かなり遅れての週報ですが、この年末年始で追いつくのでご容赦ください笑

Docling

11/2 に X で発表されて有名になった PDF などのファイルをテキスト化する変換ライブラリです。主に RAG をする際に PDF や Word などのファイルをテキスト化するとおもますが、これまで pypdf や pymupdf などライブラリでは、あまり精度が高くありませんでした。このDocling ではレイアウト解析用には DocLayNet データを用いて学習された RT-DETR モデル 、表構造認識に TableFormer というモデルを使用しており、ファイルの構造を把握しながらテキスト変換を行うことができるので、かなり精度が高くテキスト化することができます。

利用方法

python のパッケージとして install できます。

pip install docling

ソースを指定して実行すると、markdown ファイルが出力されます。

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

export_to_markdown 関数の引数は以下の通り。

基本的な引数

  1. delim: str = "\n"

    • 各Markdown要素間の区切り文字を指定
    • デフォルトは改行文字(\n
    • 例えば、段落間の空行を制御するのに使用
  2. from_element: int = 0

    • 出力を開始する要素のインデックス
    • デフォルトは0(最初から)
    • ドキュメントの一部分だけを出力したい場合に使用
  3. to_element: int = sys.maxsize

    • 出力を終了する要素のインデックス(この値は含まない)
    • デフォルトはsys.maxsize(実質的に最後まで)
    • from_elementと組み合わせて出力範囲を指定

出力制御引数

  1. labels: set[DocItemLabel] = DEFAULT_EXPORT_LABELS

    • 出力対象とする要素タイプのセット
    • デフォルトは以下を含む:
      • TITLE(タイトル)
      • SECTION_HEADER(セクション見出し)
      • PARAGRAPH(段落)
      • CAPTION(キャプション)
      • TABLE(テーブル)
      • PICTURE(画像)
      • TEXT(テキスト)
      • LIST_ITEM(リスト項目)
      • CODE(コード)
    • 追加で以下を指定できる
      • REFERENCE = "reference"
      • FORMULA = "formula"
  2. strict_text: bool = False

    • Markdownの装飾を制御するフラグ
    • True: 純粋なテキストとして出力(#や-などのMarkdown記号を除去)
    • False: Markdown記法を含めて出力

画像関連の引数

  1. image_placeholder: str = "<!-- image -->"

    • 画像の代替テキスト
    • image_modeがPLACEHOLDERの時に使用される
    • デフォルトはHTMLコメント形式
  2. image_mode: ImageRefMode = ImageRefMode.PLACEHOLDER

    • 画像の出力方式を指定
    • PLACEHOLDER: プレースホルダーテキストを挿入
    • EMBEDDED: 画像を直接埋め込み(データURLまたはパス参照)

フォーマット制御引数

  1. indent: int = 4

    • ネストされたリストのインデントサイズ
    • スペースの数を指定
    • 例:
      - 第1レベル
          - 第2レベル(4スペース)
              - 第3レベル(8スペース)
      
  2. text_width: int = -1

    • テキストの折り返し幅
    • -1: 折り返しなし
    • 正の整数: 指定した文字数で折り返し
    • 長い段落の可読性を向上させるために使用
  3. page_no: Optional[int] = None

    • 特定のページのみを出力する場合に指定
    • None: すべてのページを出力
    • 整数: 指定したページ番号の内容のみを出力

画像を出力させる

デフォルトでは image_mode を ImageRefMode.PLACEHOLDER にしているので、画像は image_placeholder で指定したタグで出力されます。
ちゃんとした画像を出力させたい場合は image_modeImageRefMode.EMBEDDED にするのですが、普通に指定するだけだとこのようなエラーが起きます。

<!-- 🖼️❌ Image not available. Please use `PdfPipelineOptions(generate\_picture\_images=True)` -->

pipeline の options に generate_picture_images=True を指定してあげる必要があります。

具体的には converter をインスタンス化する際に PdfPipelineOptions(generate_picture_images=True) を指定してあげる必要があります。

from docling.datamodel.base_models import InputFormat
from docling.document_converter import DocumentConverter, FormatOption
from docling.pipeline.standard_pdf_pipeline import StandardPdfPipeline
from docling.datamodel.pipeline_options import PdfPipelineOptions
from docling.backend.docling_parse_backend import DoclingParseDocumentBackend

converter = DocumentConverter(
    allowed_formats=[InputFormat.PDF, InputFormat.MD], # ここでは許可するファイルフォーマットを指定できます
    format_options={
        InputFormat.PDF: FormatOption(
            pipeline_cls=StandardPdfPipeline,
            pipeline_options=PdfPipelineOptions(
                images_scale=1.0, # 画像のスケール
                generate_picture_images=True # 画像を出力するかどうか
            ),
            backend=DoclingParseDocumentBackend,
        ),
    },
)

すると、以下のように markdown 内に base64 でエンコードされて画像が埋め込まれます。

![Local Image]()

decode すれば画像が得られるので、出力結果から base64 を解析して画像として抜き出すスクリプトを書くことで、画像も出力することができます。

デモ

試しに finatext の決算短信を読み込ませてみます。

alt text
2025年3月期 第2四半期(中間期)決算短信〔日本基準〕(連結)

Docling による markdown 出力結果

Docling による markdown 出力結果
![Local Image]()

## 2025年3月期 第2四半期(中間期)決算短信(日本基準)(連結)

20241114日

上 場 会 社 名

株式会社Finatextホ-ルディングス 上場取引所

東

コ - ド 番 号

4419

URL https://hd.finatext.com/

代

表

者

(役職名)

代表取締役CEO

(氏名)

林

良太

問合せ先責任者

(役職名)

取締役CFO

(氏名) 伊藤 祐-(TEL) 03(6265)6828

半期報告書提出予定日

20241114日

配当支払開始予定日

-

決算補足説明資料作成の有無

: 有

決算説明会開催の有無

: 有

(機関投資家·アナリスト向け )

(百万円未満切捨て)

## 1.2025年3月期第2四半期(中間期)の連結業績(2024年4月1日~2024年9月30日)

## (1)連結経営成績(累計)

(%表示は、対前年中間期増減率)

|                    | 売上高   | 売上高   | 営業利益   | 営業利益   | 経常利益   | 経常利益   | 親会社株主に帰属 する中間純利益   | 親会社株主に帰属 する中間純利益   |
|--------------------|----------|----------|------------|------------|------------|------------|-----------------------------------|-----------------------------------|
|                    | 百万円   || 百万円     || 百万円     || 百万円                            ||
| 2025年3月期中間期 | 3,451    | 65.4     | 407        | -          | 402        | -          | 287                               | -                                 |
| 2024年3月期中間期 | 2,086    | 32.5     |184       | -          |181       | -          |311                              | -                                 |

| () 包括利益      | 2025年3月期中間期    | 286百万円( -) 2024年3月期中間期         |357百万円(   | -)   |
|--------------------|-----------------------|--------------------------------------------|---------------|--------|
|                    | 1株当たり 中間純利益 | 潜在株式調整後 1株当たり 中間純利益 円 銭 |               |        |
| 2025年3月期中間期 | 円 銭 5.72            | 5.44                                       |               |        |
| 2024年3月期中間期 |6.30                 | -                                          |               |        |

() 2024年3月期中間期の潜在株式調整後1株当たり中間純利益については、新株予約権の残高がありますが、1株当

たり中間純損失であるため記載しておりません。

## (2)連結財政状態

|                                 | 総資産        | 純資産      | 自己資本比率   |
|---------------------------------|---------------|-------------|----------------|
|                                 | 百万円        | 百万円      ||
| 2025年3月期中間期 2024年3月期 | 16,319 20,175 | 9,155 8,721 | 52.5 40.6      |

(参考) 自己資本

2025年3月期中間期

8,563百万円

2024年3月期

8,181百万円

## 2.配当の状況

|                    | 年間配当金   | 年間配当金                | 年間配当金   | 年間配当金   | 年間配当金   | 年間配当金   | 年間配当金   | 年間配当金   |
|--------------------|--------------|---------------------------|--------------|--------------|--------------|--------------|--------------|--------------|
|                    | 第1四半期末 | 第2四半期末 第3四半期末 |              | 期末         |              |              | 合計         |              |
| 2024年3月期       | 円 銭        | 円 銭                     | 円 銭 -      |0.00      |              ||||
| 2025年3月期       | - -          | 0.00 0.00                 |              |              |              |              |              | 0.00         |
| 2025年3月期(予想) |              |                           | -            |              | 0.00         |              | 0.00         |              |

- () 直近に公表されている配当予想からの修正の有無 : 無

## 3.2025年3月期の連結業績予想(2024年4月1日~2025年3月31日)

|      |              |         | 営業利益   | 営業利益   |            |          | 親会社株主に帰属      | 親会社株主に帰属   | (%表示は、対前期増減率) 1株当たり 当期純利益 銭   | (%表示は、対前期増減率) 1株当たり 当期純利益 銭   |
|------|--------------|---------|------------|------------|------------|----------|-----------------------|--------------------|-----------------------------------------------------|-----------------------------------------------------|
|      | 売上高       |         |            |            | 経常利益   |          | する当期純利益 百万円 ||                                                     |                                                     |
| 通期 | 百万円 7,627 |41.9 | 百万円 686 |234.8   | 百万円 643 |230.8 | 180                   | -                  |3.54                                             |                                                     |

() 直近に公表されている業績予想からの修正の有無

表の部分はかなり綺麗に出力されていますね。

他のライブラリではこんな感じです。

pypdf による markdown 出力結果
2025年3月期第2四半期(中間期)決算短信〔日本基準〕(連結)
20241114日
上場会社名 株式会社Finatextホールディング ス上場取引 所 東
コード番号 4419 URLhttps://hd.finatext.com/
代表者(役職名)代表取締 役CEO(氏名)林良太
問合せ先責任 者(役職名)取締役CFO (氏名)伊藤祐一郎 (TEL)03(6265)6828
半期報告書提出予定 日 20241114 日 配当支払開始予定 日 -
決算補足説明資料作成の 有無 :有
決算説明会開催の有 無 :有(機関投資家 ・アナリスト向 け)
(百万円未満切捨て)
1.2025年3月期第2四半期(中間期)の連結業 績(2024年4月1日~2024年9月30日)
(1)連結経営成績(累計 ) (%表示は、対前年中間期増減率)
売上高 営業利益 経常利益親会社株主に帰 属
する中間純利益
百万円 % 百万円 % 百万円 % 百万円 %
2025年3月期中間 期 3,45165.4 4074022872024年3月期中間 期 2,08632.5184- △181- △311()包括利益2025年3月期中間期 286百万円(-%)2024年3月期中間期 △357百万円(-%)
1株当たり
中間純利益潜在株式調整 後
1株当たり
中間純利益
円銭 円銭
2025年3月期中間 期 5.72 5.44
2024年3月期中間 期 △6.30()2024年3月期中間期の潜在株式調整後1株当たり中間純利益については、新株予約権の残高がありますが、1株当
たり中間純損失であるた め記載しておりませ ん。
(2)連結財政状 態
総資産 純資産 自己資本比率
百万円 百万円 %
2025年3月期中間 期 16,319 9,155 52.5
2024年3月期 20,175 8,721 40.6
(参考)自己資本 2025年3月期中間期 8,563百万円 2024年3月期8,181百万円
2.配当の状 況
年間配当金
第1四半期末 第2四半期末 第3四半期末 期末 合計
円銭 円銭 円銭 円銭 円銭
2024年3月期 - 0.000.00 0.00
2025年3月期 - 0.00
2025年3月期(予想 )0.00 0.00
()直近に公表されている配 当予想からの修正の有 無:無
3.2025年3月期の連結業績予 想(2024年4月1日~2025年3月31日)
(%表示は、対前期増減率)
売上高 営業利益 経常利益親会社株主に帰 属
する当期純利益1株当たり
当期純利益
百万円 % 百万円 % 百万円 % 百万円 % 円銭
通期 7,62741.9 686234.8 643230.8 1803.54
()直近に公表されている業 績予想からの修正の有 無:無※注記事項
pymupdf による markdown 出力結果
2025年3月期
第2四半期(中間期)決算短信〔日本基準〕(連結)
20241114日
上場会社名
株式会社Finatextホールディングス
上場取引所
東
コード番号
4419
URL
https://hd.finatext.com/
代
表
者
(役職名)
代表取締役CEO
(氏名)
林
良太
問合せ先責任者
(役職名)
取締役CFO
(氏名)
伊藤
祐一郎
(TEL) 03(6265)6828
半期報告書提出予定日
20241114日
配当支払開始予定日
-
決算補足説明資料作成の有無
:有
決算説明会開催の有無
:有
(機関投資家・アナリスト向け)
(百万円未満切捨て)
1.2025年3月期第2四半期(中間期)の連結業績(2024年4月1日~2024年9月30日)
(1)連結経営成績(累計)
(%表示は、対前年中間期増減率)
売上高
営業利益
経常利益
親会社株主に帰属
する中間純利益
百万円
%
百万円
%
百万円
%
百万円
%
2025年3月期中間期
3,451
65.4
4074022872024年3月期中間期
2,086
32.5184
-
△181
-
△311() 包括利益
2025年3月期中間期
286百万円(
-%)
2024年3月期中間期
△357百万円(
-%)
1株当たり
中間純利益
潜在株式調整後
1株当たり
中間純利益
円
銭
円
銭
2025年3月期中間期
5.72
5.44
2024年3月期中間期
△6.30() 2024年3月期中間期の潜在株式調整後1株当たり中間純利益については、新株予約権の残高がありますが、1株当
たり中間純損失であるため記載しておりません。
(2)連結財政状態
総資産
純資産
自己資本比率
百万円
百万円
%
2025年3月期中間期
16,319
9,155
52.5
2024年3月期
20,175
8,721
40.6
(参考) 自己資本
2025年3月期中間期
8,563百万円
2024年3月期
8,181百万円
2.配当の状況
年間配当金
第1四半期末第2四半期末第3四半期末
期末
合計
円
銭
円
銭
円
銭
円
銭
円
銭
2024年3月期
-
0.000.00
0.00
2025年3月期
-
0.00
2025年3月期(予想)0.00
0.00
() 直近に公表されている配当予想からの修正の有無

また、最近有名な zerox というマルチモーダル LLM を使うライブラリでは、こんな感じです。

zerox による markdown 出力結果
20253月期 第2四半期(中間期)決算短信【日本基準】(連結)
20241114日

上場会社名 株式会社Finatexホールディングス 上場取引所 東
コード番号 4419 URL https://hd.finatex.com/
代表者(役職名) 代表取締役 CEO (氏名) 林 良太
問合せ先責任者 (役職名) 取締役 CFO (氏名) 伊藤 拓一郎 (TEL) 03(6265)6828
半期報告書提出予定日 20241114日 配当支払開始予定日 —
決算補足説明資料作成の有無 : 有
決算説明会開催の有無 : 有 (機関投資家・アナリスト向け)

1. 20253月期第2四半期(中間期)の連結業績(202441日~2024930日)
(1)連結経営業績(累計)

|   | 売上高      | 営業利益 | 経常利益 | 親会社株主に帰属する当期純利益 |
|---|-------------|---------|---------|---------------------------------|
| 20253月期中間期 | 百万円 | %     | 百万円 | %     | 百万円 | % |
|   | 3,451 | 65.4 | 407  || 402   ||287  ||
| 20243月期中間期 | 2,086 | 32.5 |414 ||181 ||311 ||

(注)包括利益 20253月期中間期 286百万円 (—%) 20243月期中間期 △357百万円 (—%)
1株当たり中間純利益 金額 円 銭
20253月期中間期 5.72
20243月期中間期 △6.30

(注)20243月期中間期の潜在株式調整後1株当たり中間純利益については、稀釈予承株の発⾔がありますが、1株当たり中間純利益であるため数値としておりません。

(2)連結財政状態

|   | 総資産    | 純資産 | 自己資本比率 |
|---|-----------|-------|--------------|
|   | 百万円    | 百万円 | %          |
| 20253月期中間期 | 16,319 | 9,155 | 52.5  |
| 20243月期     | 20,175 | 8,721 | 40.6  |

(参考)自己資本 20253月期中間期 8,563百万円 20243月期 8,181百万円

2. 配当の状況

年度間配当金

|   |1四半期末 |2四半期末 |3四半期末 | 期末 | 合計 |
|---|--------------|-------------|-------------|------|-----|
| 20243月期 | 円 銭 | 円 銭     | 円 銭     | 円 銭 | 円 銭 |
|   || 0.00     || 0.00 | 0.00  |
| 20253月期 || 0.00     || 0.00 | 0.00  |

(注)直近に公表されている配当予報からの修正の有無 : 無

3. 20253月期の連結業績予想(202441日〜2025331日)
(%表示は、対前期増減率)

|   | 売上高      | 営業利益 | 経常利益 | 親会社株主に帰属する当期純利益 | 1株当たり当期純利益 |
|---|-------------|---------|---------|---------------------------------|---------------------------------|
| 通期  | 百万円 | %     | 百万円 | %     | 百万円 | % | 円 銭 |
|   | 7,627 | 41.9 | 686  | 234.8 | 643   | 230.8 | 180     || 3.54   |

(注)直近に公表されている業績予報からの修正の有無 : 無

比較するとわかりますが、Docling の方が表形式のデータをうまく取れています。zerox は冒頭の会社名などの情報が崩れずに取れていますが、表内の数字がずれてうまく取れていないです。そのため、画像系のデータが多い場合は、zerox の方がより使いやすいと思います。

Docling では image では base64 の画像データとしてしか取れないので、画像の意味までは汲み取りません。そのため、画像系のデータが多い場合は、zerox の方がより使いやすいと思います。

まとめ

PDF のデータを markdown に変換する場合は、

  • 表形式データが多い → Docling
  • 画像系データが多い → zerox

を使うと良いと思います!

もしくは処理に時間を多くかけても良いケースであれば組み合わせてしまっても良いと思います。
zerox ではあくまで画像データとして見に行くのではじめは Docling でテキスト化し、画像は base64 で出力 & 画像に変換 & 再度埋め込み。その後前後の文脈を入れながら画像を zerox で読み込ませるというような使い方も可能です。

参考資料

https://ds4sd.github.io/docling/
https://arxiv.org/html/2408.09869v3#bib.bib12
https://zenn.dev/kun432/scraps/2a1e2456fc68bf

Self-Developing

Self-Developing というのは、LLM 自体に より賢い LLM の作り方を発見させるフレームワークです。

これまでの LLM の開発や性能改善は当然 LLM を作る人間のアイデアによるものですが、それ自体を LLM の創造性に頼ってより優れた改善方法を LLM 自身に発見させるというものです。具体的にはより賢い LLM を開発するモデルマージの方法を LLM によって学習・発見させます。

モデルマージとは複数のモデルを混ぜて1つのモデルを作るモデル改善アルゴリズムの1種で、今回のフレームワークでは初期モデル M0 と、モデルマージのアルゴリズム(どのようにモデルの重みを混ぜるか)を生成するモデル n を用意して、改善サイクルを回しながら M0 と n を交互に学習させていきます。

alt text
改善サイクル: https://arxiv.org/pdf/2410.15639

DPO(「良い出力」と「悪い出力」のペアからなる選好データでLLMをファインチューニングする手法)とその評価結果をもとにモデルマージのアルゴリズムを改善していきます。すると最終的には性能が向上した初期モデル M0 と、良いアルゴリズムを生成することができるモデル n ができあがります。

実際の結果では、LLMが発見したアルゴリズムを適用したモデルはGSM8kで76.1%を達成し、初期モデル(70.1%)から約+6%の大幅な性能向上を実現しています。そして、Task ARITHMETIC(71.9%)、TIES Merging(71.8%)、Model Stock(39.5%)といった最先端の人間が設計したモデルマージアルゴリズムを大きく上回っています。

さらに、人間の介入だけでなく初期モデルより強力な外部モデル(例:GPT-4)もアルゴリズム生成に使用していない点も強調されており、LLM が自身より賢いモデルがなくても自己強化できることが示唆されています。

評価指標(GSM8K)

GSM8Kとは、OpenAIのリサーチサイエンティストであるKarl Cobbeらによって、2021年に提案された複数ステップの数学的推論のベンチマークです。
8.5Kの高品質で言語的に多様な小学校の数学の文章問題のデータセットで、複数のステップが必要な計算問題です。

たとえば、以下のような問題があります。

問題:
ベスは1週間で4つの2ダース分のクッキーを焼きます。これらのクッキーを16人で均等に分けた場合、1人あたり何枚のクッキーを食べることになるでしょうか?

解答:
ベスは4つの2ダース分のクッキーを焼くので、合計は4×2=<<4×2=8>>8ダースのクッキーになります。
1ダースには12枚のクッキーがあり、彼女は8ダース分のクッキーを作るので、合計は12×8=<<12×8=96>>96枚のクッキーになります。
96枚のクッキーを16人で均等に分けると、1人あたり96÷16=<<96÷16=6>>6枚のクッキーを食べることになります。

最終答え: 6

他のモデルの結果は以下の通りで、GPT4でも92%を達成しているようです。ただし指標としてはやや古めです。

Rank Model Accuracy Methodology
1 Anthropic Claude 3 95% Zero shot
2 Google Gemini Ultra 94.4% Majority Vote, 32 Generations
3 OpenAI GPT-4 92% SFT & 5-shot CoT
4 Anthropic Claude 2 88% Zero shot
5 Google Gemini Pro 86.5% Majority Vote, 32 Generations
6 Inflection 2 81.4% 8-shot Learning
7 Mistral Large 81% 5-shot Learning
8 Google PaLM 2 80% 5-shot Learning
9 Mistral Medium 66.7% 5-shot Learning
10 xAI Grok 1 62.9% 8-shot Learning

モデルマージ手法

Task Arismetic は、個別タスクでファインチューニングしたタスクベクトルを単純な加減算でモデルマージする手法です。

TIES Mergingは、マージするパラメータの符号ができるだけ一致するようにいくつかのパラメータを0にするTIES5という手法です。

Model Stockは、微調整された重みの重み空間に関する重要な洞察から、パフォーマンスと重み空間の中心への近さの間に強い関連があるという性質を利用して、トレーニング中またはトレーニング後に適用可能な、ファインチューニング後の 2 つのモデルのみを使用して中心に近い重みを近似して、モデルをマージする手法です。

所感

フレームワーク自体はシンプルで、外部の強いモデルがなくても自己強化できる点がすごいです。実際に行うときは DPO をどのように用意するかがポイントになりそうです。

参考資料

https://arxiv.org/abs/2410.15639
https://ai-data-base.com/archives/77965
https://dalab.jp/archives/journal/llm-merge-techniques/

Microsoft Magentic-One(11/4)

Microsoft の AutoGen 上に新しい AI エージェントフレームワークである Magentic-One が登場しました。

alt text
demo 動画: https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/

具体的には、FileSurferWebSurferCoderComputerTerminal の4つのエージェントを Orchestrator というエージェントが管理するという方式です。

  • Orchestrator:
    • タスクの分解、計画、サブタスクの実行における他のエージェントの指示、全体的な進捗状況の追跡、必要に応じて是正措置の実施を担当するリードエージェント
  • WebSurfer :
    • Chromium ベースの Web ブラウザの状態を制御および管理する能力に長けた LLM ベースのエージェント。各リクエストに対して、WebSurfer はナビゲーション (URL の訪問、検索の実行など)、Web ページの操作 (クリック、入力など)、読み取りアクション (要約、質問への回答など) などのアクションを実行します。その後、Web ページの新しい状態を報告します。WebSurfer は、ブラウザのアクセシビリティ ツリーとマーク セットのプロンプトを利用してタスクを実行します。
  • FileSurfer :
    • マークダウンベースのファイル プレビュー アプリケーションにローカル ファイルの読み取りを指示する LLM ベースのエージェント。ディレクトリの内容の一覧表示やディレクトリ間の移動などの一般的なナビゲーション タスクも実行できます。
  • Coder :
    • コードの記述、他のエージェントから収集された情報の分析、新しい成果物の作成に特化した LLM ベースのエージェント。
  • ComputerTerminal :
    • プログラムを実行したり新しいライブラリをインストールしたりするためのコンソール シェルへのアクセスを提供します。

alt text
Magentic-One のエージェント: https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/

Orchestrator の役割が肝になっており、Task Ledger(タスク台帳)と Progress Ledger(進捗台帳)の2つを調整しながら、必要なタイミングでサブエージェントを呼び出してタスクを実行していきます。

メタで見ると Orchestrator は タスク管理という外部ループ、進捗管理という内部ループの2つのループを管理するということになります。まずタスクが与えられると外部ループでタスクをもとに必要な事実や推測を分析、その後必要な処理を分解して計画を立て、これを Task Ledger に記録します。

その後、内部ループに入り、Task Ledger (タスク台帳)に記録されたサブタスクを実行し、その結果を Progress Ledger (進捗台帳)にその実行結果と進捗状況を記録します。

ここで、「タスクが完了しているかいるか」をチェックし、

  • 完了している場合 → プロセス終了
  • 完了していない & 進捗がある → 再度他のサブタスクを実行
  • 完了していない & 進捗がない → 外部ループに戻り、タスクを分析してサブタスクを再生成

という流れになります。

それぞれのエージェントに利用するマルチモーダル LLM はさまざまなモデルをサポートしていますが、Orchestrator には GPT-4oo1 などの強力な推論モデルが推奨されています。

所感

仕組み自体はかなりシンプルで、考え方自体も他に転用できそうだなと思いました。Magentic-One を使った事例はまだほとんどないので、そのあたりも試してみたいと思います。

github のレポジトリにはサンプルコードもあるので、そちらも参考にしてみてください。

参考資料

https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
https://github.com/microsoft/autogen/

ChainForge

ChainForgeは、LLMの応答を分析・評価するためのデータフロープロンプトエンジニアリング環境です。

alt text
ChainForgeのサンプル例: https://github.com/ianarawjo/ChainForge

機能としては以下のようなものがあります。

  • 複数 LLM の同時実行
    • 複数の LLM を一度にクエリして、プロンプトのアイデアとバリエーションを迅速かつ効果的にテストします。
  • プロンプトの組み合わせ比較
    • プロンプトの組み合わせ、モデル、モデル設定全体で応答の品質を比較して、ユースケースに最適なプロンプトとモデルを選択します。
  • 評価メトリックに応じたグラフの可視化
    • 評価メトリック(スコアリング関数) を設定し、プロンプト、プロンプト パラメーター、モデル、モデル設定全体の結果をすぐに視覚化します。
  • 数を多くのテンプレート
    • テンプレート パラメータとチャット モデル全体で複数の会話を同時に実行します。プロンプトだけでなくフォローアップ チャット メッセージもテンプレート化し、チャット会話の各段階で出力を検査して評価します。

所感

プロンプトの生成も LLM によって行うことができるので、ユーザーはデータフローを作成するだけで、ChainForge が自動的にプロンプトを生成して実行してくれます。

alt text
プロンプト生成: https://github.com/ianarawjo/ChainForge

なにより表形式で出力結果を比較できる点が非常にうれしく、プロンプトチューニングやモデルの選定において非常に役立ちそうです。

alt text
出力結果: https://github.com/ianarawjo/ChainForge

参考資料

https://github.com/ianarawjo/ChainForge
https://zenn.dev/kun432/scraps/334e996582d9b4

GitHub Copilot 認定資格が登場

GitHub Copilot の認定資格が登場しました。GitHub の各種認定試験は 2024年1月から登場していて、その中でも GitHub Copilot は 2024年10月から一般の方も受けられるようになりました。

試験名 概要
GitHub Foundations GitHub でのコラボレーション、コントリビューション、ワークの基礎的トピックとコンセプトの知識があることを示します。この試験の範囲は、コラボレーション、 GitHub 製品、Git の基本、GitHub レポジトリ内でのワークです。
GitHub Actions GitHub Actions によりワークフローを自動化し開発を加速する、ご自身の技能を証明しましょう。ワークフローの合理化、タスクの自動化、 CI/CD などソフトウェア パイプラインの最適化のすべてを、カスタマイズ可能なワークフロー内で実施するスキルをテストします。
GitHub Advanced Security GitHub Advanced Security 認定でコード セキュリティの知識があることを示しましょう。脆弱性の特定、ワークフロー セキュリティ、ソフトウェア完全性の標準を高める堅牢なセキュリティ実装などでの専門性を検証します。
GitHub Administration GitHub 管理試験で、正常な GitHub 環境の最適化と管理の能力の認定を受けてください。GitHub でのプロジェクトの成功をサポートするためのリポジトリ管理、ワークフロー最適化、効率的な協力について専門性があることを示します。
Github Copilot GitHub Copilot 認定試験では、さまざまなプログラミング言語における AI ドリブンのコード補完ツールを使用する際のスキルを評価し、ソフトウェア開発ワークフローを効率的に最適化する能力を認定します。

Note

  • 料金は一律 $99
  • 試験時間は 120 分で 60問
  • 選択できる言語は英語のみのため、多少は英語が読めることが望ましいとのこと
  • 受験会場はテストセンターか自宅のどちらかで受験可能

英語のみというのがかなりネックになりそうですが、難しい英語は使われなさそうなので興味のある方は受けてみると良いと思います。合格体験記的なものは結構あるので、そちらも参考にしてみてください。自分も近いうちに Copilot だけでも受けてみたいと思います。

参考資料

https://resources.github.com/ja/learn/certifications/

関連週報

We are Hiring!

この件についてもっと詳しく知りたい、議論したい、はたまたナウキャストという会社に興味を持ったという方は、カジュアル面談フォームから連絡ください。その際に「今週の生成AI情報まとめ見た!」と書いていただければ幸いです!

https://herp.careers/v1/finatexthd/vZWzSlI_B-qk

Finatext Tech Blog

Discussion