NECが国産生成AIを公開、日本語LLMのパフォーマンスは「GPT-4」を上回る？

NECが国産の言語生成AIを一般公開したというニュースがあります。以下はその記事の紹介です。

NEC、国産生成AIを初公開
NECが国産の生成AIを初めて一般公開し、日本語LLMのデモンストレーションを実施しました。詳細はこちら。
NECのLLM、GPT-4を上回る日本語性能を持つ？
NECの独自LLMは「GPT-4」を上回る日本語性能を持つとの報道も。詳しくはこちら。

では、実際に「GPT-4」を上回る日本語性能を持つのか、その真相を探るために、同じプロンプトをChatGPTとNECのLLMに投げて比較してみました。

使用したプロンプト：

以下の論文の貢献を日本語で教えて。　Prompted models have demonstrated impressive few-shot learning abilities. Repeated interactions at test-time with a single model, or the composition of multiple models together, further expands capabilities. These compositions are probabilistic models, and may be expressed in the language of graphical models with random variables whose values are complex data types such as strings. Cases with control flow and dynamic structure require techniques from probabilistic programming, which allow implementing disparate model structures and inference strategies in a unified language. We formalize several existing techniques from this perspective, including scratchpads / chain of thought, verifiers, STaR, selection-inference, and tool use. We refer to the resulting programs as language model cascades.

英文の日本語訳:

プロンプトベースのモデルは、少数のショット学習能力において驚異的な結果を示しています。テスト時に単一のモデルとの繰り返しの相互作用や、複数のモデルを組み合わせることで、さらなる能力を拡張することができます。これらの組み合わせは確率的なモデルであり、ランダム変数の値が文字列のような複雑なデータタイプであるグラフィカルモデルの言語で表現することができます。制御フローや動的な構造を持つケースでは、確率的プログラミングの技術が求められます。これにより、異なるモデルの構造や推論戦略を統一された言語で実装することができます。この視点から、スクラッチパッド/思考の連鎖、検証器、STaR、選択推論、ツールの使用など、いくつかの既存技術を形式化しました。得られたプログラムを「言語モデルカスケード」として参照しています。

ChatGPTの回答：

この論文は、プロンプトベースのモデルが示す驚異的な少数のショット学習能力について述べています。テスト時に単一のモデルとの繰り返しの相互作用や、複数のモデルを組み合わせることによって、さらに多くの能力が拡張されます。これらの組み合わせは確率的なモデルであり、ランダム変数の値が文字列のような複雑なデータタイプであるグラフィカルモデルの言語で表現されるかもしれません。制御フローや動的な構造を持つケースでは、確率的プログラミングの技術が必要です。これにより、異なるモデル構造や推論戦略を統一された言語で実装することができます。この視点から、スクラッチパッド/思考の連鎖、検証器、STaR、選択推論、ツール使用などの既存の技術を形式化しています。結果として得られるプログラムを言語モデルカスケードと呼んでいます。

NECの回答は、

この論文は、プロンプト駆動型モデルにおける少数ショット学習の能力を披露しました。テスト時の一つのモデルに対する複数回答の問い合わせや、複数モデルの組み合わせは、能力を拡張します。これらの構成は確率モデルであり、文字列値を持つランダム変数Language Model Cascadeとして表現されます。制御フロートと動的構造には、probabilistic programmingのtechniquesであるrandom variablesを用いて対処します。これにより、多様なモデル構造と推論戦略を、統一言語を用いて実装できるようになります。我々は、この視点に諸般の既存手法を定位し、それをscratchpads( ※途中で止まってしまっている。

評価

NECのLLMの回答を見ると、一部がわかりにくく、また、途中で英語が混ざっているのが確認できます。対照的にChatGPTの回答は、内容が明確で日本語の流れも自然です。

まとめ

NECの国産生成AIが注目されていますが、今回の比較結果からは、GPT-4を上回るという評価は難しいように感じます。技術の進化は日々進行しており、今後の更新や改良に期待したいところです。

NECが国産生成AIを公開、日本語LLMのパフォーマンスは「GPT-4」を上回る？

まとめ

Written by:

Hiroki Takezawa