GPT-4Vの登場


GPT-4との比較での進化のポイント

GPT-4Vとは、OpenAIが開発した最新のマルチモーダル言語モデルです。1 マルチモーダル言語モデルとは、テキストだけでなく、画像や音声などの他のモダリティの入力も扱うことができる言語モデルのことです。 GPT-4Vは、GPT-4という大規模なテキストベースの言語モデルに、画像の解析能力を追加したものです。2 GPT-4Vは、ユーザーが画像を入力とした解析を行うようGPT-4に指示することができます。1 例えば、画像に写っている物や人物の説明や、画像に関連する質問の回答などが可能です。 GPT-4Vは、2023年3月にシステムへの早期アクセスを開始し、2023年9月に一般公開されました。1

GPT-4Vは、GPT-4と比較して、どのように進化しているのでしょうか? ここでは、GPT-4Vの5つの進化のポイントを紹介します。

  1. モデルサイズの増加 GPT-4Vは、GPT-4よりも大幅に増強されたモデルサイズを持ちます。2 GPT-4は、約1,000億個のパラメータを持つ言語モデルでしたが、GPT-4Vは、約2,000億個のパラメータを持つマルチモーダル言語モデルです。2 パラメータとは、モデルが学習する重みのことで、パラメータが多いほど、モデルが表現できる情報量が増えます。 モデルサイズの増加により、GPT-4Vは、文章生成の質や多様性が向上しています。2
  2. データセットの拡充 GPT-4Vは、GPT-4よりも多くのデータセットで学習されています。1 GPT-4は、インターネットやデータのライセンス取得源からの大量のテキストデータを使用して、ドキュメントの次の単語を予測するように訓練されました。1 GPT-4Vは、GPT-4の訓練データに加えて、画像データや画像とテキストのペアのデータも使用して、マルチモーダルな入力に対応するように訓練されました。1 データセットの拡充により、GPT-4Vは、言語のニュアンスや画像の特徴をよりよく捉えることができます。2
  3. コンテキストの改善 GPT-4Vは、「コンテキスト・サイズ」と「コンテキスト・ウィンドウ」が、従来のモデルより大幅に改善されています。3 コンテキスト・サイズとは、モデルが一度に処理できる入力の長さのことで、コンテキスト・ウィンドウとは、モデルが記憶できる過去の入力の長さのことです。 GPT-4は、コンテキスト・サイズが3,000単語、コンテキスト・ウィンドウが1,000単語でしたが、GPT-4Vは、コンテキスト・サイズが5,000単語、コンテキスト・ウィンドウが2,000単語です。3 コンテキストの改善により、GPT-4Vは、会話のコンテキストや、会話の中で与えられる指示を、より長い時間にわたって、より明確に、記憶することができます。3
  4. 画像の解析能力の向上 GPT-4Vは、GPT-4に比べて、画像の解析能力が向上しています。1 GPT-4は、テキストのみの入力に対応していましたが、GPT-4Vは、画像のみの入力や、画像とテキストの混合入力にも対応しています。1 GPT-4Vは、画像に写っている物や人物の説明や、画像に関連する質問の回答などが可能です。1 例えば、以下のような入力と出力が考えられます。

サンプル1

入力:この画像について教えてください。

出力:この画像は、ソファに座っている大型犬と、犬の首を撫でている人の一部を示しています。人は携帯電話を持っているように見えます。犬はリラックスしているように見え、人との絆や親しみを感じることができます。犬は健康的で良いコンディションに見えます。

サンプル2

入力:この犬の犬種は何?

出力:この写真の犬はマスチフやマラノワのような大型犬種の特徴を持っているように見えますが、写真だけからは正確な犬種を特定するのは難しいです。正確な情報を知りたい場合は、獣医や犬のブリーダーに相談するとよいでしょう。

マラノワ?存在しないが

  1. 安全性の向上 GPT-4Vは、GPT-4よりも安全性が向上しています。1 GPT-4Vの安全性に関する作業は、GPT-4で行われた作業を基礎としており、画像入力に対して行われた評価、準備、軽減作業について深く掘り下げています。1 GPT-4Vは、OpenAIがどのようにGPT-4の視覚機能を展開するために準備したかを概説したシステムカードを公開しています。1 システムカードでは、GPT-4Vの小規模ユーザー向けの早期アクセス期間、その期間から得られた安全性に関する学び、モデルの展開適合性を評価するために設計されたマルチモーダル評価、専門家レッドチームによる主要な調査結果、そしてOpenAIが広範囲にリリースする前に実装した軽減策について詳しく説明しています。1 GPT-4Vは、Vision-LLM特有のAdversarial Attackに対してかなり強くなっているようです。

Brain Fiberの紹介

当社「Brain Fiber」は、ChatGPTやLLMを活用したDX(デジタルトランスフォーメーション)を専門に推進しています。あなたのビジネスやプロジェクトに最適なデジタル化の方法や、これらの先進技術の可能性を最大限に活用する方法をご提案いたします。

不明点やご相談がございましたら、お気軽にお問い合わせください。私たちは常に皆さまのご質問や悩みを解決する手助けをしたいと思っております。一緒に未来のビジネスを創造しましょう。


引用

詳細情報:1. qiita.com2. textcortex.com3. lifehacker.jp4. appbank.net5. appbank.net6. qed-inc.co.jp7. arxiv.org