※『月刊 正論』2024年5月号に、同じ「『鏡』としての人工知能」というタイトルの記事を寄稿しました(内容は大きく異なります)。下記は約1年前の『表現者クライテリオン』発売時のメモのようなもので、雑なところがありますが、そのまま残しておきます。
表現者クライテリオン最新号の特集テーマは「SDGs/AI批判序説」というもので、私は「AIの知能観――シンギュラリティ論に惑わされないために」という記事を書いています。思想誌でAI(人工知能)批判というと、
「AIが人間に追いつくことはない」
「AIの安易な導入には弊害がある」
というような内容を想像する人もいるかも知れませんが、私が言いたいのはそういうことではありません。AIの周辺では「言葉の定義」も「現存する技術との対応関係」も定かでない言説が飛び交いがちで、礼讃論と懐疑論のいずれも地に足が着いていないと感じることが多いので、まずは現代の人工知能技術の特徴を大まかにでも確認して頭を冷やしたほうがよいのではないかという話です。
また、AIが話題に上ると、すぐ「機械が人間に追いつき、追い越すことは可能なのか」という議論をしたくなる人は多いと思うのですが、そもそも「追いつく」「追い越す」という言葉が何を指すのかも曖昧で、よほど丁寧に論点を仕分けしていかないと、各自が思い思いに「ある」とか「ない」とか断定し合うだけで終わってしまいます。ちなみに私自身も根拠なき断定を述べておくと、AIは近い将来、何らかの重要な意味で人間の能力を超えるとは思っていて、ドラえもんみたいなロボットもそのうち実現するだろうと想像しているのですが、予想が当たろうが外れようがどちらでも構いませんし、当たったところで我々の人生の本質は大して変わらないと思います。
「AIは意識を持ち得るのか」「自律的な主体となり得るのか」という問いについても同じで、その問いに答えるためには意識とは、自律性とは、主体とは何なのかから考える必要があります。これらは哲学者たちが長い間取り組んできた問題ですし、工学的応用に繋がりそうな理論としても古いところでは「オートポイエーシス」、新しいものでは「統合情報理論」やら「自由エネルギー原理」やら色々な提案があるものの、まだまだ決定的と言える枠組みがあるわけではありません(そして、だからこそ興味深い分野でもあります)。
要するに、そもそも人間が人間自身や意識の正体を十分に理解していないのだから、「AIが人間に追いつくかどうか」「AIが意識を持ち得るかどうか」という問いを発するのは、ある意味「まだ早い」と言うべきなのです。
「シンギュラリティ」「ポストヒューマン」「スーパーインテリジェンス」というようなSF的想像にも面白いところはありますが、あまり未来主義的な思考に傾き過ぎるのは考えものです。20世紀には「社会主義経済計算論争」というのがあって、統計データと数学的計算に基づく計画経済の運営は可能かどうかが争われ、コンピュータが実用化され始めると一部の社会主義者は「これで経済計算の問題は工学的に解決できる」と楽観しました。今振り返ればそれが夢想に過ぎなかったことは明らかですし、計画経済の失敗は未来主義者の一つの「前科」というべきでしょう。
(なお、「シンギュラリティ」論が技術に向き合う人間の態度としていかに不健全なものであるという話については、東浩紀氏の以下の論考が勉強になるので、有料ですが本誌の読者にもお勧めです。落合陽一、ハラリは「夢想的で危険」東浩紀が斬る“シンギュラリティ”論に潜む“選民思想”)
AIにまつわる大言壮語に振り回されないようにするためには、現存する技術の仕組みを簡単にでも理解しておくことが役に立つと私は考えています。その際、「今のAIには◯◯がない」というネガティブな指摘はいくらでもできて、そういう話を聞きたいという人も多いでしょう。しかし私はむしろ、良い面も悪い面も含めて、AIの仕組みや振る舞いを「人間と比較する」ことが有益だと思っています。
クライテリオン最新号の記事では、
というようなことを紹介しました。このメルマガでは、そこで触れていない論点をいくつか取り上げましょう(部分的には重複します)。
1950年代頃の初期の人工知能研究者たちは、「人間の心を理解するために、模型を作って動かしてみよう」という動機を持っていました。AIをいわば「鏡」として、人間自身を知ろうというわけです。今では多くの場合、「実用的な機械を作ること」が研究開発の目的になっていると思いますが、我々の心を映す「鏡」としてAI技術に関心を持つことは、現代においても有意義です。特に、AI技術の性能が大きく向上したときに「なぜこの仕組みでうまくいったのか」と問うことで、人間の心や知能について様々な示唆が得られるのです。
まずとても単純な例からいくと、「Word2vec」(ワード・トゥ・ベック)という技術があります。これは単語の意味をベクトル、つまり「数字をたくさん並べたもの」に変換するアルゴリズムで、人工知能というよりはその部品の一種です。10年ほど前に登場して、「王さま – 男 + 女 = 女王さま」というような演算ができることや類義語の認識精度が高いことなどから話題になり、広く使われるようになりました。処理内容は異なるものの、単語の意味をベクトルで表現するテクニック自体は最近話題の「ChatGPT」(チャット・ジーピーティー)などの内部でも使われています。
Word2vecは一つ一つの単語の意味を100次元から300次元程度のベクトルで表現し、その表現を使って単語と単語のあいだの関係を捉えます。100次元のベクトルというのは、見た目は単に数字を100個並べたものだと思ってください。性質としては、一つ一つの単語の意味を100種類の成分に分解したものというイメージです。
そう聞くと、「自然言語が持っている繊細な意味を、そんな単純な表現で捉えられるわけがない」と感じる人が多いでしょう。私もそう思いますし、決して完璧な技術ではないのですが、実際に使ってみると100次元程度でも意外とうまく機能してしまって驚かされます。また、次元を増やせば良いというものでもないのが不思議なところです[注1]。
私はこの種の技術をみて、「人間の言語の意味空間というのは、案外狭いものかもしれない」と考えるようになりました。より正確には、「意外と狭いかも」という発想を持つことで得られる、言葉に関する洞察が色々あるのではないかということです。
もちろん、言葉は繊細で深遠で神秘的なものだと思いたい気持ちはありますし、ベクトル表現には明らかな限界もあるのですが、「低次元の表現でも思った以上に高精度な処理ができてしまう」というのは重い事実で、これはWord2vecに限りません[注2]。だから、その事実を前提として、
「我々が感じている言葉の意味の豊かさや神秘性は、単なる『複雑さ』に由来するものではないのではないか」
「感情や心そのものについても、似たようなことが言えるのではないか」
「では我々にとって、言葉や魂の神秘性とはいったい何なのか」
と考察を進めることに意味があるように思います。
[注1]ただし、複雑なモデルに高次元の表現を組み合わせると高い性能が出るのも事実で、特にTransformerという技術が登場してからは、モデルを大規模化すればするほど順当に性能が向上しています。ChatGPTの土台となっているGPT-3では、1万2288次元という巨大な埋め込みベクトルが使われています。
[注2]機械翻訳システムなどで、「文」や「文章」全体の意味を数百次元程度のベクトルで表していることも多いです。
OpenAI社の「ChatGPT」というサービスは、大変話題になっているので使ったことがある人も多いと思いますが、質問をテキストで入力するときわめて自然な言葉で答えを返してくれるチャットAIです。以下にやり取りの例を挙げておきますが、私の質問が少し曖昧である点に注目してください。「日本的雇用慣行の利点を列挙せよ」と明確に命令しているわけではないし、「どうなんですかね」という質問は何を求めているのかもハッキリしませんが、ちゃんと会話になっています。(クリックすると大きく表示されます)
ChatGPTは質問に対して「平均的な人間が言いそうなセリフ」を生成して返す仕組みなので、内容に「深み」や「鋭さ」はあまりないですし、ウソを平気で教えてくることもあります[注3]。それはアルゴリズムの設計上仕方がないことなのですが、驚くべきは文法や語法の誤りがほとんどないことと、曖昧な文脈でも読み取ってしまうところです。
ChatGPTの最後のTは「Transformer」(トランスフォーマー)の略で、トランスフォーマーというのは、2017年に『Attention is All You Need』(アテンションが全て)という論文でGoogleの研究者たちが提案したディープラーニングのアーキテクチャです[注4]。横文字が多くて申し訳ないですが、ディープラーニングというのは多層的なニューラルネットを使った機械学習技術のことで、クライテリオン最新号で簡単に仕組みを説明していますが、ここでは「最近主流になっているAI技術」ぐらいにゆるく理解しておいてください[注5]。
トランスフォーマーは高性能であるばかりか、モデルの規模を大きくすればするほど底なしに精度が向上していくので、自然言語処理をはじめとするAI技術のトレンドを大きく変えてしまいました。そしてトランスフォーマーの内部で特に重要な役割を果たしていると言われるのが、「セルフ・アテンション」という機構です。
セルフ・アテンションは、文や文章を構成している単語間の関係を捉えるための独特な仕組みで、「主語と述語」「動詞と目的語」といった文法的繋がりだけでなく、「北朝鮮とミサイル」「コオロギとタンパク質」のような意味的・文脈的な関連性も取り込んでいると考えられます。長くなるので具体的な処理方法は説明はしませんが、セルフ・アテンションのアルゴリズムについてよくよく考えてみると、これは哲学でいうところの「解釈学的循環」を捉えているのではないかと私には思えます。
解釈学的循環というのは、古典的な意味では「部分の意味が全体に依存し、全体の意味が部分に依存する」という構造を指します。たとえば多義語を含んだ英文を和訳するときのことを考えると、一つ一つの単語の意味を調べなければ文の意味を理解することができない一方で、個々の単語の意味は全体の文脈が与えられないと決まりません。そこで我々は、まず単語に関する基本的な知識をもとに全体の意味を漠然と考え、その曖昧な全体像にもとづいて単語の意味を考え直すという作業を何度か繰り返さなければなりません。そして英語力が身についてくると、この循環構造に「スッと入り込む」ことができるようになるわけです。
トランスフォーマーはセルフ・アテンションの仕組みを繰り返し使って、1つの文や文章の構造を何度も解釈し直しています。そしてその処理は「要素還元論」的でも「全体論」的でもなく、要素と全体像が互いに支え合っているという意味で「循環論」的です。この仕組みで圧倒的な性能が出るという事実は、人間が言葉を扱う上でも、「循環に入り込むこと」がいかに重要であるかを我々に教えていると言えます。また今後、より人間的なAIを作ろうとするのであれば、言葉や精神の「循環的な構造」をうまく扱える仕組みが必須になるだろうと想像できます。
[注3]編集委員の柴山さんに指摘されて改めて考えたので追記しますが、平気でウソを教えてくるChatGPTに「事実」とは何なのかを教え込むのが、意外と難しい可能性もあります。人間に対しては、例えば「公的機関の発表、大手メディアの報道、学術論文の報告に書いてあることは、事実である可能性が高い」と教えることができるでしょう。しかしAIに対してそれらの情報源の信頼度が高いということを教えるだけで、ファクトチェックが可能になるのかどうかはよくわかりません。というのも、後で注8でも述べるように、少なくともChatGPTのようなタイプのAIはそもそも「事実」や「出来事」を認識しているのではなく、あたかもそれを認識しているかのように「情報の自然な並び方」を再現する仕組みであるため、結果的には「あたかも大手メディア報道や学術論文に書いてありそうな表現」を出力するだけになるかもしれないからです。例えば、私が新聞報道を読んで「ある事実」を知る時、新聞記事の中に格納された「事実のカタマリ」が宅配便のように私の頭の中へと移動してくるのではありません。そうではなく、私は言わば自分の頭の中に「事実(出来事)の世界のモデル」を構築していて、新聞記事の情報を「比較的信頼度の高い情報」として利用し、そのモデルを更新するのです。これが「事実を知る」ということです。この「事実(出来事)の世界のモデル」は、私が人生の長い時間をかけて構築していく非常に大きな(そして曖昧さを伴う)「文脈」であって、その文脈の全体像との関わりの中で、ある情報が「事実(であると私が信じるもの)」を述べたものであるかどうかが決まります。一方、ChatGPTの元になっているGPT-3の学習においては、最大で2048語(正確にはサブワードのトークン数なので語数とは一致しません)が入力単位となっており、それが言わば文脈の最大幅となっています。この種のアルゴリズムでは、あるミクロな文脈の情報構造と、別のミクロな文脈の情報構造が似ていることは認識できますが、その反復でマクロな文脈を捉えられる保証はありません。最近、強化学習の分野で「世界モデル」というものが研究されており、これはまさにAIの心の中に「事実の世界のモデル」を持たせる試みなのですが、そうした技術がチャットボットにおけるファクトチェックにおいても重要な役割を果たすのかも知れません。もっとも、後で紹介するようにAIの能力獲得には「予測不能」な面があるので、もっと簡単なアプローチで十分なファクトチェックができてしまう可能性も否定はできませんが。
[注4]ややこしいですが、アテンションという機構を上手く使ったディープラーニングの仕組みがトランスフォーマーで、トランスフォーマーを使ってOpenAI社が開発した大規模言語モデルの一つがGPT(Generative Pretrained Transformer)で、その3つ目のバージョンであるGPT-3を改善したInstructGPTというものが、ChatGPTの背後で動いているシステムです。
[注5]ここで主流というのは「一番よく話題になる」ぐらいの意味です。ディープラーニング以外に、たとえば「強化学習」などの研究開発も盛んで、両者を組み合わせることも多いです。
トランスフォーマーにはまだまだ「規模の法則」(Scaling Law)が働いており、モデルやデータの規模を大きくすれば順当に性能が上がり続けると言われています。いずれ頭打ちになるとは思いますが、今のところは青天井であるかのように見えているということです。しかも不思議なことに、トランスフォーマーを用いた大規模言語モデルは、人間が教えてもいない仕事をどんどんこなせるようになっています。
古いタイプの人工知能は「ルールベース」とか「知識ベース」とか呼ばれていて、人間が用意したデータベースと事前に定義したルールにもとづいて、情報を処理していました。だから、人間が設計した仕事以外は基本的にできません。それに対し、最近主流になっている「機械学習」のアプローチでは、ルールや知識の具体的内容を人間が定義する必要はなく、「訓練」の過程で機械が徐々に能力を獲得していくのですが、それでも従来は、人間が「問題と答えのセット」(教師データ)を大量に用意してあげる必要がありました。問題の解き方や仕事のやり方は教えないが、「どういう指示に対してどういうアウトプットが求められているのか」は教えてあげるのです。
一方、GPTをはじめとする最近の大規模言語モデルにおいては、教師データを大量に用意する必要性も低下しています。構築時に「辞書」も作らないし「文法」もプログラムしないのはもちろんですが、そればかりか「問題と答えのセット」を与えるということもあまりしなくてよくなりました。「事前学習」と呼ばれるプロセスで大量のテキストデータを無造作に流し込むと、機械が自分で勝手に問題と答えを作って問いていくような仕組みになっています。言わば、どこへ行くべきかも伝えず放し飼いにしているロボットが、勝手にあちこちを歩き回り、結果的に世界地図が出来上がるようなイメージです。そしていったん地図、つまり言語の構造図ができあがると、ごく簡単な教示を与えるだけ、もしくは全く教示無しでも、様々な仕事をこなすことができるようになります。
大規模言語モデルの便利な点の一つは、「明示的には教えていない仕事」ができてしまうことです。その典型の一つが「計算」で、ChatGPTも、計算の手順がプログラムされているわけではないにもかかわらず、複雑なものでなければ数学の問題を解いてしまいます。また、学習したデータの中にプログラミングのコードも混じっていたからだと思いますが、「○○をするためのプログラムを××(プログラミング言語の名前)で書いてくれ」と頼めば、完璧ではないもののそこそこ実用的なコードを作ってくれます。
さらに、去年ぐらいから知られるようになった「Emergent Abilities」(不意に出現する能力)という現象があって、能力の「創発」とも呼ばれるのですが、これは言語モデルの規模を少しずつ大きくしていくと、ある段階で、それまで全くできなかった仕事が突然できるようになるという不連続な変化を指しています。「多段階的な推論」を必要とするタスクや、「物語の登場人物の気持ちの推測」などが例として挙げられていて、今のところはそれほど凄いものが現れているわけでもないのですが、能力が「不連続的に」成長するというのは興味深い現象です。トランスフォーマーがどんな種類の能力を身に着けられるか、現時点では予測できないのです。
これは、人間の教育の場合でも同じでしょう。能力というものは、なかなか設計主義的に育てることはできません。予測不可能な面がかなり大きく、たくさん勉強をした科目の点数が上がらなかったり、やさしい両親の下でヤンチャな子供が育ったりするものなのです。また、語学の勉強などで経験がある人も多いと思いますが、能力は学習時間に比例するわけでもなく、しばらく停滞したあとで「壁」を乗り越えるようにして急伸することがあります。
なぜ能力の成長や教育の効果を予測できないかというと、要するに、我々の「能力観」が単純過ぎるからでしょう。我々の目に「計算の能力」や「文章の能力」や「絵を描く能力」として映っているものも、じつは多種多様な能力を合成したものであって、文字通りの「計算力」「文章力」「描画力」ではないということです。だからこそ、ピンポイントでその能力を狙って伸ばすことも難しいし、逆に思いもよらない仕方で高い能力が獲得されてしまうこともあるわけです。そしてそれはAIに関しても同様で、「こういう能力が必要だからこういう設計にしよう」という発想では限界があるでしょうし、「こういう構造の機械だからこういうことしかできないはずだ」と安易に考えるのもやめたほうがいいと思います。
ChatGPTはとても博識で、科学でも歴史でもビジネスでも芸能でも、我々がウィキペディアやグーグル検索で調べる程度の内容であれば、どんな話題の質問にも答えてくれます。しかし私の理解では、じつはChatGPTの内部には、それらの知識を保存したデータベースが構築されているわけではありません。これは、技術に親しみのない人に伝えるのが難しいのですが、なるべく噛み砕いて説明してみたいと思います。また、アルゴリズムの中身を知っている人にとってはあまりにも自明のことなので、普段は話題にならないと思うのですが、よくよく考えてみると面白い話です。
もちろんChatGPTも、「事前学習」のプロセスにおいて、たくさんのデータ(Webや書籍から収集された約5000億語のテキスト)がインプットされてはいます。しかし、たとえば「第二次世界大戦が終結したのは1945年である」というような具体的な知識はどこにも格納されていません。また、外部のデータベースと繋がっているわけでもありません。じつはChatGPTがインプットデータから学んでいるのは、受け答えを上手くこなすための職人的な「経験値」のようなものだけで、多くの職人芸がそうであるように、この経験値は暗黙的で、曖昧で、不定形なものです。
強いて言えば、インプットされた情報が抽象化されて、内部のネットワークの「パラメータ」という部分に埋め込まれていると考えることはできます。しかしこのパラメータというものは、新しい情報を学習するとどんどん上書きされてしまうものですし、特定の知識との対応関係がありません[注6]。そしてChatGPTがやってくれるのは、入力された質問をきっかけとし、パラメータの中に蓄えられた経験に基づいて、知識を「その場で生成する」ような働きなのです。
この「生成」という見方が特に重要です。言語モデルの中に記憶されているのは知識そのものではなく、「刺激に応じて知識を生成するノウハウ」で、そのノウハウは全く無関係な情報を学習した際にも上書きされてしまう不定形な経験値なので、「ルール」と呼ぶことはできません。
不思議な仕組みではありますが、人間の記憶について考えてみると、だいたい似たようなものだということに気づきます。我々の記憶も、倉庫内の荷物のように「格納」されているのではなく、刺激に応じて「生成」される面が多々あります。たとえば「桃太郎の話をしてほしい」と言われたら、漠然としたイメージを頼りに、その場で作り直すようにして語る人がほとんどでしょう。頭のどこかに「桃太郎の確定したテキスト」が保存されていて、それを頑張って掘り起こしているわけではないはずです。だから、語る度に少しずつ内容も違ってきます。
受験勉強でもそうですが、知識や記憶は使わないと定着せず、単語を何度も紙に書いたり演習問題を問いたりという「アウトプット」が欠かせません。これは記憶というものが本来、静的な「情報の容れ物」ではなく動的な「情報生成のノウハウ」なのだと捉えておけば、当たり前のことだと理解できます。別の言い方をすると、「連想」は記憶を助けるための単なるテクニックではなく、むしろ連想こそが記憶の本質だということです[注7]。
[注6]具体的な知識を抽象的なパラメータの集合に置き換える操作は、ある意味「暗号化」や「圧縮」を行うエンコーダに似ているとも言えますが、エンコードやデコードの働きが一定でなく学習に応じて変わるわけなので、やはり区別して考えるのが良いと思います(製品版のChatGPTのように、いったんパラメータを固定してしまえば、単なるエンコーダ/デコーダであると言うことはできるでしょう)。アテンション機構は、新しい情報を学んだ時に過去に学習したパラメータが必要以上に更新されて記憶が消えてしまう現象をうまく抑制していると考えられますが、それでも本質的に、ネットワーク上の記憶が「変形」され得る「動的」なものである点は重要です。
[注7]私はあまり理解していませんが、曖昧で、潜在的で、動的な「連想記憶」の技術の歴史は古く、最近主流のトランスフォーマーなどとは別の種類のニューラルネットである「ホップフィールドネットワーク」や「ボルツマンマシン」が挙げられます。
こうして「AIと人間の似ているところ」にばかり着目していると、今の技術の延長上にドラえもんのような、意識をもった自律的なAIが生まれるのではないかと想像してしまう人もいるかも知れません。しかし、もちろんそう簡単なことではないはずです。
たとえば「GhatGPTは意味を理解しているのか」と訊かれれば、私なら「理解しているとは言えないだろう」と答えます。ChatGPTは、単に「意味を理解している人間と同じような回答」を返すことができるだけです。そもそも意味を理解するとはどういうことなのかというのが難しい問題ではあるのですが、少なくとも、意味というのは「行為する主体」にとって存在するもの/必要になるものであって、自律的に行動する主体として作られていないChatGPTには、定義上「意味を理解する」という出来事が生じ得ないと考えるべきだと私は思います[注8]。
また、人間にはあってChatGPTのようなAIに無いものを考えると、「感情がない」「意識がない」「自律性がない」「身体がない」「個性がない」「社会性がない」「歴史性がない」等々、いくらでも挙げることができます[注9]。それぞれの意味合いをここで説明する余裕はないですが、次年度の「表現者塾」ではそのあたりのことも詳しく議論したいと思います。
しかし冒頭でも述べたように、私は「AIに足りないもの」をことさら強調したいわけではなく[注10]、現に動いているAIの仕組みや提案されている理論を人間とよく見比べることで、何を学べるかを考えるほうが有益だと思います。そしてその際に邪魔になるのが、「シンギュラリティは近い!」というような浮ついた言説であり、またその反動としての人間礼讃です。まずはそういうものへの耐性を身につけるために、ぜひ『表現者クライテリオン』最新号をお読み下さい。
『表現者クライテリオン』2023年3月号
SDGs/AI批判序説 〜スローガンに群がる愚〜
https://www.amazon.co.jp/dp/B0BTQ4BVM1/
[注8]ChatGPTは本質的には、系列データ(順序性を持って情報が並んでいるデータ)を別の系列データに変換する機械の応用の一種であり、系列変換の典型は「This is a pen」→「これはペンです」という翻訳ですが、ChatGPTはその仕組みを「日本の首都は?」→「東京です」という関係に転用していています。先行する系列から後続する系列を予測することで、質問に対応する回答を生成し、あたかも「会話」ができているように見えるのですが、単なる情報変換器であるという点では「1+1」を「2」に変換する計算機と同じです。
[注9]ChatGPTなどとは別のタイプの、たとえば強化学習を搭載したロボットやゲームAIの場合は、「個体」が「身体」と「意識」を持って「自律的に」行動しているように見える面もありますし、広がりをもった心の内面を「世界モデル」という形で持たせようという興味深い研究もあります。ただ、今のところまだまだ人間との差異が大きいと思います。
[注10]「原理的に不可能なこと」と「今の技術水準ではできないこと」と「大きな需要がないので研究開発に力をかけていないこと」の区別を付けるのも難しく、その状態で「AIには◯◯がない」という話をし過ぎるのは考えものです。
執筆者 :
CATEGORY :
NEW
2024.10.30
NEW
2024.10.29
NEW
2024.10.28
NEW
2024.10.25
NEW
2024.10.24
2024.10.23
2024.10.24
2024.10.25
2024.10.28
2024.10.23
2023.12.20
2024.10.22
2024.10.29
2018.09.06
2024.10.18
2023.12.29