Sign in Subscribe

2023年9月28日

GPT-4Vとは？GPT-4との比較での進化のポイント

GPT-4Vの登場

GPT-4との比較での進化のポイント

GPT-4Vとは、OpenAIが開発した最新のマルチモーダル言語モデルです。¹ マルチモーダル言語モデルとは、テキストだけでなく、画像や音声などの他のモダリティの入力も扱うことができる言語モデルのことです。 GPT-4Vは、GPT-4という大規模なテキストベースの言語モデルに、画像の解析能力を追加したものです。² GPT-4Vは、ユーザーが画像を入力とした解析を行うようGPT-4に指示することができます。¹ 例えば、画像に写っている物や人物の説明や、画像に関連する質問の回答などが可能です。 GPT-4Vは、2023年3月にシステムへの早期アクセスを開始し、2023年9月に一般公開されました。¹

GPT-4Vは、GPT-4と比較して、どのように進化しているのでしょうか？ここでは、GPT-4Vの5つの進化のポイントを紹介します。

サンプル１

入力：この画像について教えてください。

出力：この画像は、ソファに座っている大型犬と、犬の首を撫でている人の一部を示しています。人は携帯電話を持っているように見えます。犬はリラックスしているように見え、人との絆や親しみを感じることができます。犬は健康的で良いコンディションに見えます。

サンプル２

入力：この犬の犬種は何？

出力：この写真の犬はマスチフやマラノワのような大型犬種の特徴を持っているように見えますが、写真だけからは正確な犬種を特定するのは難しいです。正確な情報を知りたい場合は、獣医や犬のブリーダーに相談するとよいでしょう。

マラノワ？存在しないが

安全性の向上 GPT-4Vは、GPT-4よりも安全性が向上しています。¹ GPT-4Vの安全性に関する作業は、GPT-4で行われた作業を基礎としており、画像入力に対して行われた評価、準備、軽減作業について深く掘り下げています。¹ GPT-4Vは、OpenAIがどのようにGPT-4の視覚機能を展開するために準備したかを概説したシステムカードを公開しています。¹ システムカードでは、GPT-4Vの小規模ユーザー向けの早期アクセス期間、その期間から得られた安全性に関する学び、モデルの展開適合性を評価するために設計されたマルチモーダル評価、専門家レッドチームによる主要な調査結果、そしてOpenAIが広範囲にリリースする前に実装した軽減策について詳しく説明しています。¹ GPT-4Vは、Vision-LLM特有のAdversarial Attackに対してかなり強くなっているようです。

Brain Fiberの紹介

当社「Brain Fiber」は、ChatGPTやLLMを活用したDX（デジタルトランスフォーメーション）を専門に推進しています。あなたのビジネスやプロジェクトに最適なデジタル化の方法や、これらの先進技術の可能性を最大限に活用する方法をご提案いたします。

不明点やご相談がございましたら、お気軽にお問い合わせください。私たちは常に皆さまのご質問や悩みを解決する手助けをしたいと思っております。一緒に未来のビジネスを創造しましょう。

引用

詳細情報:1. qiita.com 2. textcortex.com 3. lifehacker.jp 4. appbank.net 5. appbank.net 6. qed-inc.co.jp 7. arxiv.org

Written by:

Hiroki Takezawa

Hiroki Takezawa