🌐

OpenVINO™ ノートブック・チームのメンバーからの重要な情報: パート 2

2024/06/09に公開

この記事は、Medium に公開されている「Key Insights From the Team Lead Behind OpenVINO™ Notebooks: Part 2」の日本語参考訳です。原文は更新される可能性があります。原文と翻訳文の内容が異なる場合は原文を優先してください。
https://medium.com/openvino-toolkit/key-insights-from-the-team-lead-behind-openvino-notebooks-part-2-9ac77700f950

この記事の PDF 版は下記からご利用になれます。
https://www.isus.jp/wp-content/uploads/pdf/openvino_23_key-insights-from-the-team-lead-part-2.pdf

OpenVINO™ ノートブック・チームのマネージャーの Andrei Kochin との会話に続いて、開発者向けの新しいノートブック作成の最前線で活躍しているインテル コーポレーション AI フレームワーク・エンジニアの Ekaterina Aidova (英語) と話す機会が得られました。Ekaterina は、彼女と同僚がそれぞれの専門知識をどのように結集して、OpenVINO™ の新しい開発者と経験豊富な開発者向けのベースラインを構築したかを共有してくれました。
https://www.isus.jp/products/openvino/key-insights-from-the-team-lead-part-1/
https://www.linkedin.com/in/ekaterina-aidova/

その洞察力に富んだチャットの模様を抜粋して紹介します。

Paula Ramos: こんにちは、Ekaterina。まずあなた自身とあなたの経歴について教えてください。

Ekaterina Aidova: 私は約 5 年前にソフトウェア・エンジニアとしてインテルに入社し、現在は OpenVINO™ ノートブック・チームでモデル変換を担当しています。

私のキャリアは、.NET 開発者として始まりました。ソーシャルメディアの感情を分析するためのプラットフォームの開発に関連するプロジェクトにも取り組みました。Andrei と同様に、このプロジェクトは私の担当分野の一部ではなく、人工知能とデータサイエンスに関連していました。ビデオをテキストに転写するニューラル・ネットワークを含むプロジェクトで、ビッグデータの祖先として知られるテクノロジーである OLAP キューブが含まれていました。そこから、AI とデータサイエンス分野の旅を続けることを決めて、インテルに入社しました。

過去 5 年間、私は OpenVINO™ プロジェクトのさまざまなチームで働き、多くの刺激的な経験をしてきました。ランタイムとデバイスに近いところから始めた後、プラグイン、ツール、フレームワーク、統合などのツールキットのさまざまな分野で働いてきました。

現在は、OpenVINO™ ノートブック・チームの一員として、新しいインタラクティブなユーザー・チュートリアルを通じて AI 開発者を支援する旅を続けています。

Paula Ramos: OpenVINO™ エコシステム全体を通して働いてきたのですね。素晴らしい経験です。OpenVINO™ ノートブック内で現在注目しているトレンドとテクノロジーについて教えてください。

Ekaterina Aidova: この数年、生成 AI が画期的な進歩を遂げ、イメージ、音楽、テキストなどの多くのコンテンツを生成していることは周知の事実です。チャットボット、アイデアのブレーンストーミング、コードの記述、小論文の執筆などに使用できる大規模言語モデル (LLM) の機能の例は数多くあります。これは我々の日常生活に革命をもたらす可能性を秘めた非常に興味深いトピックです。

最も興味深い点は、膨大なハードウェア・リソースがなくても、OpenVINO™、OpenVINO™ ノートブック、ラップトップがあれば、これらの機能を実現できることです。

もう 1 つのトレンドは、過去数年間で大きな成功を収めたマルチモダリティーに関するものです。私の考えでは、これは AI の中で最も強力な手法の 1 つであり、大きな社会的意味を持っています。私の仕事が人々を元気にしたり、さまざまな人々の生活を改善するために役立つ結果をもたらすことを願っています。BLIP のようなマルチモーダル・モデル (英語) や LLaVA などのほかのモデル (英語) を使用して、テキスト、ビデオ、イメージを分析することにより、視覚障害がある人を支援し、日常の活動に必要な自信と独立性を提供することが可能です。AI の助けを借りれば、本当に驚くようなことができるのです。
https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/233-blip-visual-language-processing
https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/257-llava-multimodal-chatbot

Paula Ramos: 生成 AI には人々の生活を変え、改善する可能性があるという意見に賛成です。OpenVINO™ リポジトリーで利用できる、人気の高い生成 AI ノートブックを教えてください。

Ekaterina Aidova: まず、テキストプロンプトからイメージを生成したり、開始点のイメージから追加のガイダンスを生成する人気の高いモデル、Stable Diffusion モデル (英語) のさまざまなバージョンがあります。第 1 世代のモデルからサポートしていて、現在は第 2 世代のモデルをサポートしています。
https://github.com/openvinotoolkit/openvino_notebooks/tree/main#-ai-trends---notebooks

ユーザーのプロンプトに基づいて非常に現実的で興味深いコンテンツを生成できる Stable Diffusion XL モデル (英語) も最近追加しました。
https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/248-stable-diffusion-xl

次に、テキスト生成用のモデルがあります。おそらく最も興味深いユースケースは、Dolly (英語)、Llamav2 (英語)、Zephyr (英語) などの最新の大規模言語モデルを使用する手順です。
https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/240-dolly-2-instruction-following
https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/254-llm-chatbot
https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/273-stable-zephyr-3b-chatbot

これらのタスクは OpenVINO™ で実行でき、OpenVINO™ ノートブックにサンプルがあります。さらに、テキストプロンプトに基づいて音楽を生成したり、テキスト入力からリアルなオーディオサンプルを生成する、音楽生成モデル (英語) とサウンド生成モデル (英語) を最近追加しました。Google Colab を開いて OpenVINO™ ノートブックを実行するだけで、友達と共有できるオーディオコンテンツを生成できるのは驚くべきことです。
https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/250-music-generation
https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/270-sound-generation-audioldm2

Paula Ramos: AI 分野で働く女性として、あなたに刺激を与えたものは何でしょうか。また、この分野のほかの女性にどのように刺激を与えることができるでしょうか。

Ekaterina Aidova: 興味深い質問ですね。私にとって、AI とは、さまざまなパズルや課題を解決する必要がある分野であり、コミュニティーのほかのユーザーと協力して問題を解決できる分野です。

ちなみに、私が以前働いていたウェブ開発では、ほとんどの質問に対する答えがインターネット上で見つかるため、比較的簡単に開始して取り組むことができました。時には、すべての質問に誰かがすでに回答していて、中には数年前の答えも含まれていることを考えて恐怖を感じることもありましたが、ウェブ開発は強固なコミュニティーが存在する安定した分野です。

一方、AI 分野は急速に成長しています。毎日、新しい論文や新しいモデルが発表されていますが、問題への考え方やアプローチの方法について、すぐに使える答えや確立されたテンプレートはあまりありません。しかし、毎日何か新しいことを学ぶことができ、常に協力したり経験を共有したりできるコミュニティーは非常に貴重です。この分野に参入することは、それほど難しくありません。必要なのは学びたいという意欲だけです。すぐにプロジェクトで実験を始めることも、オープンソース・プロジェクトに貢献することもできます。例えば、OpenVINO™ には、貢献したいがどこから始めればよいか分からない人向けの、「Good First Issue」と呼ばれる特別なタグがあります。

さらに、ブログの投稿や科学論文を読んで基礎の学習を開始し、経験を積むことができるオンラインコースも多くあります。AI エンジニアになるために役立つ多くのリソースもあります。このキャリアに特定の性別や年齢が必要ないのは驚くべきことです。誰でも、この急速に発展する分野に挑戦し、成果を上げ、貢献することができ、日常生活や革新的なテクノロジーに影響を与えることができます。

Paula Ramos: 素晴らしい話をありがとうございました。確かに、このキャリアには性別や年齢は必要ありません。経験の有無にかかわらず、誰でもこの分野に参入することができます。貴重な経験を共有していただいたことに感謝します。これからも、この分野で働く開発者に刺激を与え続けてください。

豆知識: このブログシリーズの作成には、Whisper ノートブック (英語) を使用しました。皆さんも次回の会議で試してみてください。
https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/227-whisper-subtitles-generation

次回は、インテルの AI リサーチエンジニアの Samet Akcay (英語) とのエピソードを紹介する予定です。
https://www.linkedin.com/in/sametakcay/

【著者紹介】
Paula Ramos (英語) は、インテル コーポレーションの AI エバンジェリストです。AI のエンスージアストであり、2000年代の初めからコンピューター・ビジョンの分野で働いてきました。詳細は、Medium でフォロー (英語) してください。
https://www.linkedin.com/in/paula-ramos-41097319/
https://medium.com/@paularamos_5416

<OpenVINO™ ツールキットとは>
AI を加速する無償のツールである OpenVINO™ ツールキットは、インテルが無償で提供しているインテル製の CPU や GPU、VPU、FPGA などのパフォーマンスを最大限に活用して、コンピューター・ビジョン、画像関係をはじめ、自然言語処理や音声処理など、幅広いディープラーニング・モデルで推論を最適化し高速化する推論エンジン / ツールスイートです。

OpenVINO™ ツールキット・ページでは、ツールの概要、利用方法、導入事例、トレーニング、ツール・ダウンロードまでさまざまな情報を提供しています。ぜひ特設サイトにアクセスしてみてください。

https://www.intel.co.jp/content/www/jp/ja/internet-of-things/openvino-toolkit.html

【法務上の注意書き】
インテルのテクノロジーを使用するには、対応したハードウェア、ソフトウェア、またはサービスの有効化が必要となる場合があります。

絶対的なセキュリティーを提供できる製品またはコンポーネントはありません。
実際の費用と結果は異なる場合があります。

© Intel Corporation. Intel、インテル、Intel ロゴ、その他のインテルの名称やロゴは、Intel Corporation またはその子会社の商標です。

  • その他の社名、製品名などは、一般に各社の表示、商標または登録商標です

Discussion