irisuinwl’s diary

サークル不思議(略)入巣次元の、数学や技術的なことを書きます。

GPT-4 Technical ReportをGPT-4に要約させた

こんにちは。いりすです。

GPT-4が発表され、色々と騒然となってますね。

openai.com

自分もGPT-4の報告書や、chatgptで利用してみて、かなり良くなっていることが分かり、楽しくなってきましたね(櫻木真乃)

chatgpt ProでGPT-4の利用ができるので、一旦GPT-4 触ってみた所感:

  • かなり精度は上がっているように思える(GPT-3.5で解けない一変数多項式の解を求めるなど解けるようになったし、多変数連立方程式の計算なども誘導すれば解ける)
  • レイテンシは遅いので、ちょっと体験は悪いが、許容範囲
  • はやくimage input出来るようにしてほしい。
  • chatgptに課金していて良かったと思えた(ダイマスカーレット)

今回は試す一環でGPT-4でGPT-4のTechnical Reportを要約させました。

GPT-4 Technical Report: https://cdn.openai.com/papers/gpt-4.pdf

Abstract

GPT-4は、画像やテキストを入力し、テキストを出力する大規模でマルチモーダルなモデルを開発しました。実世界の多くのシナリオでは人間より劣るものの、さまざまな専門的・学術的ベンチマークで人間並みの性能を発揮し、模擬弁護士試験で上位10%のスコアを獲得しました。GPT-4は、トランスフォーマーベースのモデルであり、文章内の次のトークンを予測するために事前学習されています。事後学習の整合性プロセスにより、事実性と望ましい行動への遵守の評価で性能が向上しました。本プロジェクトの主要な要素は、幅広いスケールで予測可能に動作するインフラと最適化手法の開発でした。これにより、GPT-4の計算量の1/1,000以下で学習されたモデルに基づいて、GPT-4の性能の一部を正確に予測することができました。

1. Introduction

本技術報告では、画像とテキストを処理し、テキスト出力を生成するGPT-4という大規模マルチモーダルモデルを紹介しています。 このモデルは、対話システム、テキスト要約、機械翻訳など多くの応用が可能で、自然言語テキストの理解・生成能力を向上させることを目的としています。 GPT-4は従来のNLPベンチマークで他のモデルやシステムを上回る性能を発揮し、英語以外の言語でも優れた成果を示しています。 しかし、信頼性に関しては注意が必要で、GPT-4の能力と制約は新しい安全性の課題を生み出しています。 本報告書では、バイアス、デマ、過度の依存、プライバシー、サイバーセキュリティ、拡散などの予想されるリスクを詳細に説明し、ドメイン専門家との敵対的テストやモデルアシストの安全性パイプラインを導入することで、潜在的な危害を軽減する対策を紹介しています。

2 Scope and Limitations of this Technical Report

本報告は、GPT-4の能力、制限、および安全性に焦点を当てています。GPT-4は、公開データ(インターネットデータなど)および第三者からライセンスされたデータを使用してドキュメント内の次のトークンを予測するために事前学習されたTransformerスタイルのモデルです。その後、Human Feedbackからの強化学習(RLHF)を用いて微調整が行われました。競争状況と大規模モデルの安全性を考慮し、アーキテクチャ(モデルサイズを含む)、ハードウェア、学習計算、データセット構築、学習方法などの詳細は報告されていません。 私たちは技術の独立監査に取り組んでおり、このリリースに添付されたシステムカードで監査の初期段階とアイデアを共有しています。競争と安全性の検討と透明性の科学的価値を比較する方法をアドバイスしてくれる追加の第三者に、さらなる技術的詳細を提供する予定です。

3. Predictable Scaling

GPT-4プロジェクトの目的は、スケールが予測可能なディープラーニングスタックを構築することです。 大規模な学習では、モデル固有のチューニングが困難なため、予測可能なインフラと最適化手法を開発しました。 これにより、計算量が少ない小さいモデルからGPT-4の性能を確実に予測できました。最終損失の予測は、整合性、安全性、展開に関する意思決定を改善します。 しかし、一部の能力は予測が困難であり、将来の能力を正確に予測することが安全性にとって重要です。 今後、性能予測を登録し、方法を洗練していくことが期待されています。

4 Capabilities

GPT-4は、多様なベンチマークで人間並みの性能を発揮し、既存の言語モデルを大幅に上回りました。 試験問題は公開資料から入手し、選択肢式と記述式の問題がありました。 特に統一法廷試験で上位10%のスコアを獲得し、英語以外の言語でも優れた性能を示しました。 GPT-4はユーザーの意図に従う能力でGPT-3.5を大幅に上回り、OpenAIはGPT-4の評価に用いるベンチマークオープンソース化する予定です。 今後はベンチマークの多様性を増やし、失敗モードや難しいタスクを含めることを目指しています。

5. Limitations

GPT-4は能力が向上しているものの、前のモデルと同様に制限があり、完全には信頼できません。 幻覚を減らし、事実検証能力が向上していますが、新しい情報を学習せず、単純な推論ミスを犯すことがあります。 自信に基づく誤りを犯すことがあり、ポストトレーニングプロセス後のキャリブレーションは低下します。 出力にはバイアスが存在し、修正に取り組んでいますが、完全に管理するには時間がかかります。 適切なデフォルト行動とカスタマイズ可能性を目指しており、パブリックの意見を取り入れます。

6 Risks & mitigations

GPT-4の安全性と整合性向上に努力し、敵対的テスト、安全パイプライン利用、安全指標の改善に焦点を当てています。 分野の専門家を通じた敵対的テストでリスクを理解し、モデル支援の安全パイプラインで振る舞いを調整します。 安全性指標が大幅に改善されており、禁止コンテンツのリクエストや敏感なリクエストへの対応が向上しています。 しかし、悪用の監視と迅速な反復モデル改善が重要です。 外部研究者と協力し、潜在的な影響を理解し、評価方法を改善しています。 将来のAIの影響に備える手順と経済的影響に関するアイデアを発表予定です。

Conclusion

私たちは、GPT-4を特徴付けました。これは、一部の難しい専門的および学術的ベンチマークで人間レベルの性能を持つ大規模なマルチモーダルモデルです。GPT-4は、NLPタスクのコレクションで既存の大規模な言語モデルを上回り、(タスク固有のファインチューニングを含むことが多い)報告された最先端のシステムの大多数を超えています。英語で主に測定される改善された機能は、多くの異なる言語で示すことができます。私たちは、どのように予測可能なスケーリングが、GPT-4の損失と機能に関する正確な予測をすることを可能にしたかを強調しました。GPT-4は、能力の向上により新たなリスクが生じ、その安全性と整合性を理解し改善するために取られた方法と結果の一部を説明しました。まだやるべき仕事がたくさんありますが、GPT-4は、幅広い用途と安全に展開されたAIシステムに向けての重要なステップを代表しています。