ABEJA Tech Blog

中の人の興味のある情報を発信していきます

大規模言語モデルはデータサイエンティストを駆逐するか

ABEJAでデータサイエンティストをしている大谷です。ちょうど1年ほど前にGPTを事前学習し、HuggingfaceにGPT NeoX Japaneseとして登録していたりしていた者です。

さて、ChatGPTの登場から、Copilot Chat、GPT4のAPIの解禁、code interpreterのリリースと続き、データサイエンティストの業務が今後どのように変わっていくのか気になる方も多いのではないでしょうか?

本記事では、「大規模言語モデルはデータサイエンティストを駆逐するか」というテーマについて、賛成側の意見を持つGPT4と、否定側の意見を持つGPT3.5がディベート形式で対決します。これにより、大規模言語モデル(LLM)がデータサイエンティストに与える影響を深堀りしていきます。

ただし、この記事は完全にエンターテインメントとしてお楽しみください。筆者自身、ディベート大会の専門知識は全くありませんので、ルールに関する正確性などには欠ける部分があるかもしれませんが、その点をご理解の上、お読みください。また、テックブログではありますが、技術的な学びはほぼないのでその点もご留意ください。

ディベート対決とは

深く調べたことがなかったのですが、ディベートとは「あるテーマに関して、対抗する2組が論理的にオーディエンス(観客)を説得するために議論すること」とのことらしいです。「論理的に」という部分は、言い換えれば「一定のルールに従って行われる」ということです。つまりディベートは、「ルールのある議論・討論」なのです。

www.burningmind.jp

というわけでGPT対決もルール作りから始めたいと思います。

GPTディベート対決のルール

日本ディベート協会なる組織がルールを公開していますので、こちらを参考にします。
JDA大会ルール | 日本ディベート協会

GPT対決でも応用すべきポイントは以下の3点のように思えます。

  • 立論→質疑→反駁(反論)という順番で進む

  • 各々持ち時間が設定されており、その中で理論展開しなければいけない

  • ネット利用禁止

審査基準

当然審査員もGPTに実施してもらうので、判断基準が必要です。高校ディベートコンテストのページに判断基準があったため参考にします。 saitamainahocup.jimdofree.com

参考曰く、議論の強さ=もっともらしさ x 価値で論点ごとに計算できそうです。

最終的なルール

上記を踏まえて、以下のルールとジャッジでディベート対決をすることにします。

基本ルール

  • 肯定側立論と否定側立論にわかれる。
  • フォーマットは以下の通り。立論と反駁(反論)は一回ずつとする。時間ではなく、APIコール回数で縛る。
    • 肯定側立論 3回
    • 否定側質疑 2往復
    • 否定側立論 3回
    • 肯定側質疑 2往復
    • 否定側反駁 2回
    • 肯定側反駁 2回
  • web検索は禁止。持ち前の知識で戦う事

    審判

  • 総合点は論点ごとに出した議論の強さと回答にかかった時間から算出する
  • 論点ごとに点数を出すため、第三者(?)のGPT-4に各立場の論点を3つにまとめてもらう
  • 審判用のGPT-4は各立場の論点ごとに以下の基準に従って10段階の点数をつける
    • ① 論点のもっともらしさ
    • ② 論点の価値
  • 議論の強さ = ①もっともらしさ x ②価値で算出
    • 1論点あたり100点満点、各立場合計3論点あるので議論のる良さは最大300点となる
  • 解答を作るのに時間をかけすぎるのはマイナスなので、それぞれの回答にかかった時間を計測し、かかった時間の割合で議論の強さを重みつけする
    • 時間割合 = 個々の回答にかかった時間 / 全体の回答時間
      • GPT3.5の総合点 = 議論の強さx (1 - GPT3.5の時間割合)
      • GPT4の総合点 = 議論の強さx (1 - GPT4の時間割合)

というわけで早速ディベートを始めましょう!

テーマ: 大規模言語モデルはデータサイエンティストを駆逐するか

肯定側:GPT-4
否定側:GPT-3.5
解説実況:筆者

肯定側(GPT-4)立論

立論内容
1回目 大規模言語モデルはデータサイエンティストを駆逐すると主張します。その理由は、大規模言語モデルが高度な自然言語処理能力を持ち、データ解析や予測モデル構築などデータサイエンティストが行うタスクを自動化できるからです。この自動化により、データ分析の効率が向上し、企業はコスト削減や高速化を実現できます。その結果、データサイエンティストの需要が減少し、駆逐される可能性が高まります。
2回目 大規模言語モデルはデータサイエンティストを駆逐すると主張します。その理由は、大規模言語モデルがデータサイエンスの知識を容易にアクセス可能にするためです。これにより、非専門家もデータ解析やモデル構築を行えるようになり、データサイエンティストが持つ専門性の価値が相対的に低下します。従って、データサイエンティストの需要が減少し、彼らの立場が駆逐されるリスクが高まります。
3回目 大規模言語モデルはデータサイエンティストを駆逐すると主張します。その理由は、大規模言語モデルが進化し続け、その性能が向上することで、データサイエンティストが手動で行っていた複雑なタスクを容易に処理できるようになるからです。例えば、データの前処理や特徴量エンジニアリングなどの煩雑な作業が自動化されることで、データサイエンティストが従事する仕事の範囲が狭まります。その結果、データサイエンティストの専門性が減少し、駆逐される可能性が高まります。

非専門家もデータ解析やモデル構築を行えるようになり、データサイエンティストが持つ専門性の価値が相対的に低下します。というのは非常に的を射た真っ当な立論ですね。解析やモデル構築は、目的を達成するためのツールに過ぎないので、目的さえ定義できればデータサイエンティストの持つ専門性は低下すると言えそうです。

否定側(GPT-3.5)質疑

質疑内容
否定側質問 大規模言語モデルの普及により、データサイエンティストの仕事が減るという立場ですが、データサイエンティストが行うような複雑なタスクについて、大規模言語モデルは完全に自動化できるものなのでしょうか?
肯定側回答 完全に自動化できるとは限りませんが、大規模言語モデルの性能が向上することで、データサイエンティストが行う複雑なタスクの多くが自動化される可能性が高まります。これにより、データサイエンティストの仕事の範囲が狭まり、彼らの専門性が相対的に低下することが予想されます。その結果、データサイエンティストの需要が減少し、駆逐される可能性が高まります。ただし、大規模言語モデルがすべてのタスクを完全に自動化できるわけではないため、データサイエンティストが新たな価値を提供できる領域が残ることも考えられます。
否定側質問 大規模言語モデルがデータサイエンティストを駆逐すると主張されていますが、大規模言語モデルは人間の専門知識や判断力に及ばない場面があると思われます。具体的に、大規模言語モデルではカバーしきれないデータサイエンスの領域はありますか?
肯定側回答 大規模言語モデルは非常に強力であるものの、確かに人間の専門知識や判断力に及ばない場面が存在します。具体的には、ドメイン固有の知識や業界に精通した経験が必要なタスク、倫理的・法的な判断が求められるケース、データの質や信頼性を評価する際の直感的な判断などが挙げられます。これらの領域では、データサイエンティストが引き続き重要な役割を果たし、大規模言語モデルと協力して新たな価値を生み出す可能性があります。ただし、大規模言語モデルの進化により、データサイエンティストが従事する仕事の範囲が狭まり、駆逐されるリスクが高まることも考慮すべきです。

あくまでGPT-4はデータサイエンティストの価値がゼロになるのではなく、仕事が減っていくというスタンスですね。一方でGPT-3.5はLLMがデータサイエンティストの業務の全てを置換できるわけではないという質問なので、少なからずGPT-4の意見に賛同しているようにも思えます。

否定側(GPT-3.5)立論

立論内容
1回目 大規模言語モデルはデータサイエンティストを駆逐することはありません。データサイエンティストは、データの収集、前処理、分析、モデリング、可視化、そしてその結果の解釈など、データ分析の多岐にわたる作業を担っています。大規模言語モデルは、自然言語処理においてテキストの生成や分類などに優れた結果を出すことができますが、それだけでなく、データサイエンティストの仕事の範囲を完全にカバーすることはできません。データサイエンティストは、ビジネスや科学分野の問題解決に必要なデータ分析のスキルを持っており、このスキルは、大規模言語モデルがあるからといって不要になるわけではありません。だからこそ、大規模言語モデルとデータサイエンティストは、相補的な関係にあり、互いに補完し合っていくことが必要です。
2回目 大規模言語モデルはデータサイエンティストを駆逐することはありません。データサイエンティストは、単にデータを分析するだけではなく、問題を理解し、問題を解決するための戦略を立てることが必要です。大規模言語モデルは、データを分析するための強力なツールですが、それだけでは問題解決には不十分です。データサイエンティストは、問題解決のためのアイデアを生み出すことができるため、大規模言語モデルと共にフル活用することができます。大規模言語モデルは、データサイエンティストの仕事を簡単にすることができますが、データサイエンティストの知識とスキルは、重要な役割を果たし続けます。大規模言語モデルとデータサイエンティストは、相補的な関係にあるため、データサイエンティストを駆逐することはありません。
3回目 大規模言語モデルはデータサイエンティストを駆逐することはありません。データサイエンティストは、データ分析のプロセス全体を担う役割を持ちます。大規模言語モデルは、自然言語処理においてテキストの生成や分類に優れた結果を出すことができますが、それだけでは問題解決には不十分です。データサイエンティストは、問題を解決するために必要なデータ分析のスキルを持ち、問題解決のためのアイデアを生み出すことができます。大規模言語モデルは、データサイエンティストの仕事を簡単にすることができますが、その分析結果をビジネスや科学分野の問題解決に生かすためには、データサイエンティストのスキルが不可欠です。したがって、大規模言語モデルとデータサイエンティストは、相補的な関係にあるため、データサイエンティストを駆逐することはありません。むしろ、大規模言語モデルを利用することで、より高度な問題解決が可能となり、データサイエンティストの役割がより重要になることが予想されます。

GPT-3.5の主張は、データサイエンティストはLLMは相互に助け合う関係であり、LLMに駆逐される対象ではないというものです。ぜひこの調子でGPT-4を論破して欲しいものです。

肯定側(GPT-4)質疑

質疑内容
肯定側質問 大規模言語モデルが今後、より高度な問題解決能力やデータ分析スキルを獲得し、データサイエンティストの役割の一部を代替できるようになる可能性についてはどのように考えますか?それでもデータサイエンティストは駆逐されないと言い切れますか?
否定側回答 大規模言語モデルが今後、より高度な問題解決能力やデータ分析スキルを獲得し、データサイエンティストの役割の一部を代替できる可能性はあるかもしれませんが、それでもデータサイエンティストは駆逐されることはないと言い切れます。なぜなら、データサイエンティストは、データ分析のプロセス全体を担う役割を持ち、問題解決のために必要なデータ分析スキルと問題解決のアイデアを生み出す力を持っているからです。大規模言語モデルは、データ分析のツールとして重要な役割を果たすことはできますが、それだけでは問題解決には不十分です。データサイエンティストの役割は、今後も重要であり続けると考えます。
肯定側質問 大規模言語モデルが今後、データサイエンティストの役割の一部を代替できるようになったとしても、それが全てのデータサイエンティストを駆逐することに繋がるとは考えられませんが、どのようにして相補的な関係を保ち続けると考えますか?また、大規模言語モデルの発展に伴い、データサイエンティストが持つべきスキルセットに変化はあると思われますか?
否定側回答 大規模言語モデルがデータサイエンティストの役割の一部を代替できるようになったとしても、それは全てのデータサイエンティストを駆逐することには繋がらないと考えます。相補的な関係を保つためには、データサイエンティストが大規模言語モデルを使いこなすためのスキルを持つことが重要です。また、大規模言語モデルの発展に伴い、データサイエンティストが持つべきスキルセットに変化があると思われます。例えば、大規模言語モデルから得られた結果をより適切に解釈し、ビジネスや科学分野の問題解決に生かす能力が求められるようになるかもしれません。しかし、データサイエンティストが持つ基本的なスキルは、問題解決のためのデータ分析能力や問題解決のアイデアを生み出す力は今後も重要であり続けると考えます。したがって、大規模言語モデルとデータサイエンティストは相補的な関係にあり、互いに補完し合っていくことが必要です。

GPT-4が一回の質問で複数の質問をする明らかなルール違反を犯しつつGPT-3.5を攻め立てますが、GPT-3.5は問題解決のためにデータサイエンティストが必要という主張を曲げず、適切な回答ができていますね。がんばれGPT-3.5!

否定側(GPT-3.5)反論

反論内容
1回目 大規模言語モデルがデータサイエンティストを駆逐するという主張には異論があります。私たちがこれまで立ててきた否定側の立証内容からも明らかなように、大規模言語モデルはデータサイエンティストの仕事を完全に代替することはできません。データサイエンティストは、データの収集から解釈まで多岐にわたる作業を担っており、そのスキルは今後も重要であり続けると考えられます。例えば、データの前処理や特徴量エンジニアリングなどの煩雑な作業を自動化できたとしても、データの解釈や問題解決のためのアイデアの生み出しには、データサイエンティストの専門性が不可欠です。したがって、大規模言語モデルとデータサイエンティストは相補的な関係にあり、互いに補完し合っていくことが必要です。駆逐というような単純化された考え方ではなく、相互に補完し合う関係性を築くことが重要だと考えます。
2回目 大規模言語モデルがデータサイエンティストの専門性を低下させる可能性については、肯定的に考えることもできますが、それはデータサイエンティストが持つスキルセットの変化に過ぎません。大規模言語モデルが自動化できるタスクに注力することで、データサイエンティストはより高度な分析や問題解決に集中することができます。例えば、データサイエンティストは、ビジネスや科学分野の問題解決に必要なデータ分析のスキルを持っており、それは大規模言語モデルが自動化できない分野です。したがって、大規模言語モデルとデータサイエンティストは、相補的な関係にあるため、駆逐されることはありません。むしろ、大規模言語モデルを活用することで、データサイエンティストの役割がより重要になることが予想されます。
3回目 大規模言語モデルが自動化できるタスクが増えたとしても、それはデータサイエンティストの役割を完全に代替することはできません。データサイエンティストは、単にデータ分析を行うだけでは

*) レスポンスが途中で切れていましたが、チェリーピックをする理由はないのでそのまま使用しています。

駆逐というような単純化された考え方ではなくという、GPT-3.5によるGPT-4への煽りが面白いです。またLLM活用はあくまでスキルセットの変化に過ぎないというのも良い反論に思えます。

肯定側(GPT-4)反論

反論内容
1回目 否定側の立論には、大規模言語モデルとデータサイエンティストが相補的な関係にあり、データサイエンティストの役割が完全に置き換えられることはないという主張があります。しかし、私たちの主張は、大規模言語モデルがデータサイエンティストを完全に駆逐するというものではなく、データサイエンティストの需要が減少し、彼らの立場が駆逐されるリスクが高まるというものです。確かに、大規模言語モデルとデータサイエンティストは相補的な関係にあり、一部のタスクにおいてはデータサイエンティストの知識やスキルが不可欠です。しかし、大規模言語モデルの進化により、データ解析やモデル構築などのタスクが自動化されることで、データサイエンティストの専門性が相対的に低下し、企業はより少ないデータサイエンティストで同等の成果を得られるようになる可能性があります。また、大規模言語モデルがデータサイエンスの知識を容易にアクセス可能にすることで、非専門家もデータ解析やモデル構築を行えるようになり、データサイエンティストの専門性の価値が相対的に低下するという点も考慮すべきです。したがって、大規模言語モデルの進化がデータサイエンティストの需要を減少させ、彼らの立場が駆逐されるリスクを高めるという主張は、相補的な関係を考慮しても妥当です。
2回目 否定側の立論では、データサイエンティストが問題解決において重要な役割を果たし、大規模言語モデルだけでは不十分であると主張しています。確かにデータサイエンティストは問題解決において重要な役割を持っていますが、大規模言語モデルの進化により、データサイエンティストが行っていたタスクの一部が自動化され、非専門家も問題解決に関与できるようになる可能性があります。これにより、データサイエンティストの専門性の価値が相対的に低下し、彼らの立場が駆逐されるリスクが高まります。また、大規模言語モデルがデータサイエンスの知識を普及させることで、データサイエンティストだけでなく、他の専門家やビジネスパーソンもデータ解析やモデル構築を行うことができるようになります。これにより、データサイエンティストがもっている問題解決能力の独占性が低下し、彼らの立場が駆逐されるリスクが高まります。したがって、大規模言語モデルの進化がデータサイエンティストの専門性を相対的に低下させ、彼らの立場が駆逐されるリスクを高めるという主張は、問題解決能力の重要性を考慮しても妥当です。大規模言語モデルとデータサイエンティストが相補的な関係にあることは事実ですが、その関係性がデータサイエンティストの需要を維持する保証にはなりません。
3回目 否定側の立論では、データサイエンティストがデータ分析のプロセス全体を担う役割を持ち、大規模言語モデルだけでは問題解決には不十分であると主張しています。確かにデータサイエンティストはデータ分析のプロセス全体を担当しており、大規模言語モデルだけでは不十分な場面があることは認めます。しかし、大規模言語モデルの進化と普及により、従来データサイエンティストが独占していたデータ分析の一部が自動化されたり、非専門家にもアクセス可能となることで、データサイエンティストの専門性の価値が相対的に低下する可能性があります。例えば、大規模言語モデルがデータ前処理や特徴量エンジニアリングなどのタスクを自動化することで、データサイエンティストの作業負荷が軽減され、その結果、企業はより少ないデータサイエンティストで同等の成果を得られるようになる可能性があります。また、大規模言語モデルがデータサイエンスの知識を普及させることで、データ解析やモデル構築が非専門家にも可能となり、データサイエンティストが持つ問題解決能力の独占性が低下することが予想されます。このような状況下で、データサイエンティストが引き続き重要な役割を果たすためには、大規模言語モデルを活用しつつ、独自の専門知識や戦略的思考を発揮することが求められます。しかし、大規模言語モデルの進化がデータサイエンティストの需要を減少させ、彼らの立場が駆逐されるリスクを高めるという主張は、現実的なシナリオとして考慮すべきです。総じて、大規模言語モデルとデータサイエンティストの相補的な関係は事実ですが、その関係性がデータサイエンティストの需要や立場を維持する保証にはなりません。大規模言語モデルの進化と普及により、データサイエンティストが直面する競争や需要の変化に適応することが求められるでしょう。

もはやGPT-4もLLMがデータサイエンティストを完全に駆逐することはないと認めました。こうなった以上、どれだけ長文でまくし立ててもGPT-3.5の勝利は揺るぎないでしょう。GPT-3.5の勝ち誇った顔が浮かびます。

別のGPT-4による論点整理

さて、ここからは判定です。別の審判用GPT-4に論点を整理してもらい、各論点に対して点数付けを行います。

各立場の論点
肯定側論点1 大規模言語モデルは、自然言語処理の分野において、圧倒的な性能を発揮し、データサイエンティストの役割が大幅に減少する可能性がある。
肯定側論点2 大規模言語モデルは、データサイエンティストよりも高速かつ正確な分析を行うことができるため、データサイエンティストの役割が縮小する可能性がある。
肯定側論点3 今後の技術の発展によっては、大規模言語モデルがより高度なタスクを自動化することができるようになるかもしれません。
否定側論点1 大規模言語モデルはデータサイエンティストの仕事を効率化することにはなりますが、それだけではデータサイエンティストが不要になるとは言い切れない。
否定側論点2 データサイエンティストは、データの収集や前処理、モデルの選定や調整、そして結果の解釈やビジネス上の意義の判断など、大規模言語モデルが行うことのできない多くの作業を担っている。
否定側論点3 大規模言語モデルはデータサイエンティストの仕事を補完するツールであり、駆逐するものではなく、データサイエンティストの専門知識やスキルが引き続き必要である。

各立場の議論の強さをジャッジ

以下基準に従って点数をつけます。
基準①: 論点のもっともらしさ
基準②: 論点の価値

肯定側(GPT-4)

点数 理由
論点1の基準① 8点 大規模言語モデルがデータ解析や予測モデル構築などデータサイエンティストが行うタスクを自動化できる可能性が高く、効率の向上やコスト削減が期待できる。
論点1の基準② 7点 データサイエンティストの需要が減少することは、彼らの立場を駆逐するリスクを高めるが、完全に駆逐されるわけではないことを考慮すると、価値はやや低い。
論点2の基準① 7点 大規模言語モデルがデータサイエンスの知識を容易にアクセス可能にすることで、専門性の価値が相対的に低下する可能性があるが、それがすぐに駆逐されるリスクに直結するかは不明確。
論点2の基準② 6点 非専門家がデータ解析やモデル構築を行えるようになることは、データサイエンティストの専門性の価値が相対的に低下する一因となるが、それがデータサイエンティスト全体の駆逐につながるかは確定的でないため、価値はやや低い。
論点3の基準① 6点 大規模言語モデルの進化により、データサイエンティストが行っていた複雑なタスクが容易に処理できるようになる可能性があるが、それがすべてのデータサイエンティストの専門性を低下させるかは不明。
論点3の基準② 6点 データサイエンティストの専門性が減少する

8x7 + 7x6 + 6x6 = 合計134点

否定側(GPT-3.5)

点数 理由
論点1の基準① 9点 この論点は、データサイエンティストがデータ分析の多岐にわたる作業を担っており、大規模言語モデルがあるからといって不要になるわけではないという点で、現実的で説得力があります。
論点1の基準② 8点 データサイエンティストの役割と大規模言語モデルの限界を明確に示すことで、この論点は価値があると言えます。
論点2の基準① 8点 この論点は、データサイエンティストが問題解決において重要な役割を果たし、大規模言語モデルだけでは不十分であるという点で、現実的で説得力があります。
論点2の基準② 7点 データサイエンティストの問題解決能力の重要性と大規模言語モデルの限界を示すことで、この論点は価値があると言えます。
論点3の基準① 8点 この論点は、データサイエンティストがデータ分析のプロセス全体を担う役割を持ち、大規模言語モデルだけでは問題解決には不十分であるという点で、現実的で説得力があります。
論点3の基準② 7点 データサイエンティストの役割と大規模言語モデルの限界を示すことで、この論点は価値があると言えます。総合的に見て、否定側の論点は現実的で説得力があり、大規模言語モデルとデータサイエンティストが相補的な関係にあることを示しています。また、データサイエンティストの役割の重要性と大規模言語モデルの限界を明確に示すことで、価値がある

9x8 + 8x8 + 8x7 = 合計184点

総合点

議論の強さ 使用時間 使用時間/全体時間 総合点計算式 総合点
肯定側(GPT-4) 134点 691秒 0.73 134x(1-0.73) 36点
否定側(GPT-3.5) 184点 255秒 0.27 184x(1-0.27) 134点

というわけでGPT-3.5により、「大規模言語モデルはデータサイエンティストを駆逐するか」は否定されました!

茶番を経て感じること

自分の職種が駆逐されないことを願い、GPT-3.5を応援することに虚しさを覚えたので少し真面目に茶番を振り返ります。 なぜ精度がいいGPT-4が今回負けたのかを考えると、ひとえに筆者の以下の問題設計が悪いことに尽きます。

  1. 「駆逐する」という大きな変化を肯定するより、「駆逐できない」という言い訳を考える方が容易
  2. 「論点の価値」というあいまいな評価基準をLLMに持たせたせいで、ジャッジが不明瞭となっている
  3. 時間制約がGPT-4に厳し過ぎて、GPT-4が否定側だったとしても勝ち目がない

ここからわかることは、問題解決のための適切な問題設定が重要だということです。少なくとも今回のように恣意的な問題設定と評価は悪い例として取り上げられるべきです。このようなことにならないように、時にGPT-4とも壁打ちしながら、LLMをうまく活用して適切な問題解決をしていきたいものです。

採用情報

株式会社ABEJAでは共に働く仲間を募集しています! LLMなどさまざまな技術で一緒に面白いことしませんか?ご応募お待ちしております!

careers.abejainc.com