「GPT-4」がもたらすChatGPTのさらなる進化。「GPT-3.5」との比較で整理

2023.04.26

Share

世間を賑わすChatGPTが、GPT-4の登場によりさらなる進化を遂げる。その驚異的な精度向上やマルチモーダルモデルの採用により、これまで以上に多彩な用途での活用が可能となり、ビジネスシーンに大きな変革が訪れることは必至だ。本記事では、GPT-4のデモを通じてその革新性を紹介し、将来のビジネスへのインパクトについて考察する。

精度の面からみるGPT-4の圧倒的な進化

前回の記事ではジェネレーティブAIの概観に触れ、左脳系ともいえるChatGPTの登場によってビジネスが変革されていく可能性について解説した。そして今回は、GPT-4の登場によってChatGPTが更なる進化を遂げようとしている点に触れていきたい。GPT-4はOpenAI社が2023年3月14日に発表した言語モデルで、ChatGPTに搭載されているGPT-3.5を飛躍的に進化させたものである。

まず注目したいのは言語モデルの精度に直結するといわれるパラメータ数の進展だ。昨年11月に公開されたGPT-3.5が1,750億パラメータであるのに対し、GPT-4のパラメータ数は非公開ながら5,000億以上といわれており、文献によっては100兆とも記されている。2018年の初代GPTが1.1億、2019年のGPT-2が15億であったことから、驚異的な進展を遂げていることがわかる。

参考:  GPT-3から我々は何を学べばいいのか|Japio

参考:A New Chip Cluster Will Make Massive AI Models Possible|WIRED

 

次にトークンといわれる扱えるデータ量の違いだ。大規模言語モデルでいうトークンとは形態素解析などで扱う単位なのだが、一般的にトークン数に比例して単語数も増えていくものである。分かりやすく説明すると、GPT-3.5の上限は英語ベースだと3,000語程度である。(日本語だとこれより少なくなる。ChatGPTに聞いてみたところ、1,000~2,000語程度との回答であった。)対してGPT-4は、最大25,000語程度まで扱うことができるため※1、GPT-3.5の約8倍という計算になる。これは本でいうと30ページ以上の文量を一度に生成できるほどの単語量である。つまり、より長文でのテキスト生成や複雑な指示への回答が可能になり、ユーザビリティでも大きな飛躍を遂げているということになる。

ではパラメータ数や扱えるデータ量の飛躍によって、具体的に何がどのように向上するのであろうか。OpenAI社はGPT-3.5とGPT-4の違いについてコメントしており、日常的な会話では「微々たるもの」だとする一方、やり取りが複雑になるほど明らかな差が生まれるとしている。

例えばOpenAI社がおこなったテストでは、司法試験の模試をGPT-3.5に解かせたところ下位10%程度のスコアであったのに対し、GPT-4は上位10%に入るほどの優秀なスコアをたたき出したという。また、東北大をはじめとする研究者グループからは、GPT-4が過去5年の日本の医師国家試験にすべて合格したという研究結果も発表されている。

参考:GPT-4|OpenAI

参考:大規模言語モデルGPT-4、日本の医師国家試験に合格 国際研究チームが論文報告|アイブン

 

また、生成する情報の正確性という点でも大きな差が見られた。OpenAI社独自の敵対的事実評価(9つのカテゴリにおいて、どの程度の確率で正しい文章を生成できるか)という正確性を測るテストがあるのだが、GPT-3.5ではそのスコアが40-50%程度であったのに対し、GPT-4は70-80%まで向上したのだ。AIの世界では「幻覚」といわれる不正確な情報を生成してしまう懸念があるのだが、この問題に対して大幅な改善が見られるということだ。ChatGPT自体、世界中のユーザーからのフィードバックを受けて日進月歩でスコアを伸ばしているなか、GPT-4の登場によって一気に30%ものスコア向上を遂げたのは目をみはるものがある。

図1

(図1:OpenAI社による敵対的事実評価のスコア比較)

画像引用:GPT-4|OpenAI

GPT-4のデモ(1)画像をインプットに、ユーモアまで理解

GPT-4が革新的なのは、精度の劇的な向上だけではない。新たにテキストと画像の両方で入力できる「マルチモーダルモデル」が採用されたことも大きな特徴である。現時点でGPT-4を使用する方法は、ChatGPTの有料版であるChatGPT Plus、またはMicrosoft社のBing Chatを通じたテキスト入力に限られるため、一般にはマルチモーダルを体験することができない。ただGPT-4発表当日のライブ配信で面白いユースケースが示されたので、本記事ではそのうち2つの例を紹介したい。

まずはインプットした画像に説明を求めるデモだ。図2のように目の前に落ちている木の実をリスがカメラで撮っているイラストを読ませてみて、何が面白いのかを尋ねてみた。するとGPT-4は、「通常は木の実を食べるはずのリスがプロのカメラマンのように振る舞っている」とユーモアを説明してみせたのだ。

図2

(図2:GPT-4がイラストのユーモアを説明する様子)

画像引用:GPT-4 Developer Livestream|YouTube

 

何とも衝撃的な賢さだが、ポイントは3つある。

1.画像の理解力が凄い
まずリス、カメラ、木の実とイラストに描いてあるものを正確に把握している。それだけでなく、「リスがカメラを手に持っている」、「木の実が地面に落ちている」といった状況まで正確に理解できている。

2.人間と同じレベルで常識を理解している
「人間はカメラを使って写真を撮る」という人間とカメラの関係、「リスは木の実に目がなく、四六時中食べたり集めたりする」というリスと木の実の関係を予め学習しており、人間にとっての常識を理解できている。

3.常識とのギャップでユーモアに気づける
「これの何が面白いのか」という問いに答えるのは人間でも難しいものだが、GPT-4は常識とのギャップでそれを理解している。リスが想定と違う行動をとっている点が、イラストの面白さだと気づくことができている。

ユーザーが入力したのは、たった一枚のイラストと「What’s funny about this image?」という5語の質問だけだ。GPT-4は上記3つのポイントを押さえることで、人間と同じ考え方でユーモアを瞬時に説明してみせたのである。ジェネレーティブAIが生成するアウトプットは、それぞれの要素の関係性から最適なピースを予測することを繰り返した結果に過ぎないのだが、GPT-4はもはや人間と同じ感性を持っていると思えるほどの挙動なのである。

GPT-4のデモ(2)手書きのスケッチからWebページを生成

次にご紹介するのは、Webページまで作ってしまうユースケースである。デモでは“My Joke Website”と書かれた非常に簡素なラフスケッチをもとに、Webページのモックアップを生成させていた。しかもWebページに掲載するジョークは自分で考えろという無茶振りである。

図3

(図3:GPT-4への指示の様子)

画像引用:GPT-4 Developer Livestream|YouTube

 

図4

(図4:GPT-4が生成したWebページの様子)

画像引用:GPT-4 Developer Livestream|YouTube

 

お世辞にもきれいとはいえないラフスケッチとたった19語の指示で、GPT-4はフォーマットから生成し、ジョークも含まれたコンテンツを作成してみせたのだ。掲載されたジョークは英語では定番のようだが、ボタンを押すと答えが出てくる手の込みようであった。使い手の指示次第では、さらに複雑なコーディングを要するアプリケーションまで生成可能であるし、資料の自動生成も可能になるだろう。(OpenAI社に出資するMicrosoft社は今年3月、ジェネレーティブAIで資料の自動生成が可能になる「Microsoft 365 Copilot」を数ヶ月以内に公開すると発表した。)

まとめ

精度の大幅な向上に加えテキスト以外の画像などを扱えるようになったGPT-4は、ChatGPTの用途をさらに広げる可能性を秘めている。

図5

図5:GPT-3.5 vs GPT-4)

 

デスクワークで働くビジネスパーソンの多くが資料作成に多くの時間を割いているが、ジェネレーティブAIを使いこなせば作業時間を大幅に削減し、より生産性の高い業務に時間をかけられるようになるだろう。もちろんジェネレーティブAIが力を貸してくれる業務は資料作成だけではない。業種特化型のチャットボットなど、ChatGPTのAPIを活用したサービスはすでに数多くリリースされている。さらにこの先、ChatGPTプラグインやMicrosoft 365 Copilotの活用も広がっていく。このようなサービスを積極的に使っていくことで、我々の働き方は大きく変わるだろう。事実、技術トレンドに敏感なプログラマーたちは既にChatGPTにコードを書かせており、プロンプトエンジニアリング※2のスキルまで身につけ始めている。

左脳系ジェネレーティブAIの進化は、かつてのインターネットやiPhoneのように新たなパラダイムシフトを予感させる。ChatGPTの利用に慎重な国や企業も見受けられるが、様子を伺っているだけでは取り残されてしまう。ジェネレーティブAIを具体的にどのように活用できるのか、早急に考える必要があるのではないだろうか。

※1:単語数は、Models|OpenAIWhat are tokens and how to count them?|OpenAIの情報を基に当社が算出
※2:言語モデルへの指示文(プロンプト)を工夫することで、出力の精度を改善させる手法

 

▼関連記事

 

この記事の著者

福原 寛

株式会社アイレップ
DXコンサルティングユニット シニアマネージャー

ベイカレント・コンサルティングにて15年以上に渡りコンサルティング業務を経験。2023年アイレップに参画。
保険/通信/ハイテクメーカーを中心に、営業・業務領域にてハンズオンでのご支援実績を多数有する。
DX推進を含め、戦略・計画策定から実行フェーズまで一貫したご支援経験が豊富で、実現可能性を鑑みた計画策定や実行推進におけるバランス感覚を強みとする。

株式会社アイレップ
DXコンサルティングユニット シ...

Share

一覧に戻る