安全なAIのための3原則(17:35)
講演内容の日本語対訳テキストです。
自動スクロールはしませんので、映像に合わせてスクロールさせてご覧下さい。
これは李世ドルです。李世ドルは 世界で最も強い碁打ちの1人ですが、シリコンバレーの友人たちなら「なんてこった」と言う 瞬間を迎えています。
(笑)
我々が予想していたよりも ずっと早く AIが進歩していることに 気付いた瞬間です。人間は碁盤上で機械に負けましたが 実際の世の中ではどうでしょう?
実際の世界は 碁盤よりもずっと大きく ずっと複雑で ずっと見通し難いですが 決定問題であることに 違いはありません。 到来しつつある テクノロジーのことを考えるなら — 機械は 本当に理解して文を読めるようには まだなっていないことに 新井紀子氏が 触れていましたが、それもやがて できるようになるでしょう。そして そうなったとき 機械は人類がかつて書いた すべてのものを 速やかに読破することでしょう。そうなると機械は 碁において見せた、人間より遠くまで 見通す力と合わせ より多くの情報に 触れられるようになることで、実際の世の中でも 人間より優れた 判断ができるようになるでしょう。 それは良いことなのでしょうか? そうだと望みたいです。
我々の文明そのもの 我々が価値を置くすべては 我々の知性を 拠り所としています。 はるかに多くの知性が 使えるようになったなら 人類に可能なことに 限界はないでしょう。 ある人々が言っているように これは人類史上最大の出来事に なるかもしれません。 ではなぜ「AIは人類の終焉を意味するかもしれない」などと言われているのでしょう? これは新しいことなのでしょうか? ただイーロン・マスクと ビル・ゲイツと ホーキングが言っているだけなのか?
違います この考えは結構前からありました。ここに ある人の 言葉があります。「重大な瞬間にスイッチを切る といったことによって 機械を従属的な位置に保てたとしても — この“スイッチを切る”ことについては 後でまた戻ってきます―種としての我々は 謙虚に捉えるべきである」誰の言葉でしょう? アラン・チューリングが 1951年に言ったことです。ご存じのように、チューリングはコンピューター科学の父であり、いろいろな意味で AIの父でもあります。 この問題を考えてみると、つまり自分の種よりも知的なものを 生み出してしまうという問題ですが。 これは「ゴリラの問題」と呼んでも良いかもしれません。なぜなら数百万年前に ゴリラの祖先がそうしているからで。 ゴリラたちに 尋ねることができます。「いいアイデアだったと思う?」
ゴリラたちが いいアイデアだったのか 議論するために 集まっていますが しばらくして 出した結論は「あれは酷いアイデアだった」というものです。おかげで我々の種は ひどい苦境に置かれていると 彼らの目に実存的な悲哀を 見て取れるでしょう。
(笑)
「自分の種より知的なものを 生み出すのは 良い考えではないのでは?」 という不安な感覚があります それについて 何ができるのでしょう? AIの開発をやめてしまう以外 ないかもしれませんが AIのもたらす様々な利点や 私自身AI研究者である という理由によって 私にはそういう選択肢は ありません 実際AIは続けたいと 思っています。
この問題をもう少し 明確にする必要があるでしょう 正確に何が問題なのか? 優れたAIが我々の破滅に繋がりうるのは なぜなのか?
ここにもう1つ 引用があります 「機械に与える目的については それが本当に望むものだと 確信があるものにする必要がある」 これはノーバート・ウィーナーが 1960年に言ったことで 最初期の学習システムが 作り手よりもうまくチェッカーを 指すのを見た すぐ後のことです しかしこれはミダス王の 言葉だったとしても おかしくないでしょう ミダス王は「自分の触れたものすべてが 金になってほしい」と望み そして その望みが 叶えられました これはいわば 彼が「機械に与えた目的」です そして彼の食べ物や飲み物や親類は みんな金に変わってしまい 彼は悲嘆と飢えの中で 死んでいきました だから自分が本当に望むことと合わない 目的を掲げることを 「ミダス王の問題」と 呼ぶことにしましょう 現代的な用語では これを 「価値整合の問題」と言います。
間違った目的を与えてしまうというのが 問題のすべてではありません 別の側面もあります 「コーヒーを取ってくる」というような ごく単純な目的を 機械に与えたとします 機械は考えます 「コーヒーを取ってくるのに失敗する どんな状況がありうるだろう? 誰かが自分のスイッチを 切るかもしれない そのようなことを防止する 手を打たなければ 自分の「オフ」スイッチを 無効にしておこう 与えられた目的の遂行を阻むものから 自分を守るためであれば 何だってやろう」 1つの目的を 非常に防御的に 一途に追求すると 人類の本当の目的に 沿わなくなるというのが 我々の直面する問題です 実際それが この講演から学べる 価値ある教訓です。もし1つだけ覚えておくとしたら それは — 「死んだらコーヒーを取ってこれない」 ということです。
(笑)
簡単でしょう。記憶して1日3回唱えてください。
(笑)
実際 映画『2001年宇宙の旅』の筋は そういうものでした。HALの目的・ミッションは 人間の目的とは合わず そのため衝突が起きます 幸いHALは非常に賢くはあっても 超知的ではありませんでした それで最終的には 主人公が出し抜いて スイッチを切ることができました でも私たちはそんなに幸運では ないかもしれません では どうしたらいいのでしょう?
「知的に目的を追求する機械」という 古典的な見方から離れて AIの再定義を試みようと思います 3つの原則があります 第1は「利他性の原則」で ロボットの唯一の目的は 人間の目的 人間にとって価値あることが 最大限に実現される ようにすることです ここで言う価値は 善人ぶった崇高そうな価値ではありません 単に何であれ 人間が自分の生活に 望むものということです。この原則は 「ロボットは自己を守らなければならない」 というアシモフの原則に反します 自己の存在維持には まったく関心を持たないのです。
第2の原則は 言うなれば「謙虚の原則」です。これはロボットを安全なものにする上で 非常に重要であることがわかります。 この原則は ロボットが人間の価値が何か 知らないものとしています。 ロボットは最大化すべきものが何か 知らないということです。 1つの目的を 一途に追求することの問題を これで避けることができます。 この不確定性が 極めて重要なのです
人間にとって有用であるためには 我々が何を望むのかについて 大まかな理解は必要です。 ロボットはその情報を主として 人間の選択を観察することで得ます。 我々が自分の生活に望むのが 何かという情報が 我々のする選択を通して 明かされるわけです。 以上が3つの原則です。 これがチューリングの提起した 「機械のスイッチを切れるか」という問題に どう適用できるか 見てみましょう
これは PR2 ロボットです。 私たちの研究室にあるもので 背中に大きな赤い「オフ」スイッチがあります。 問題は ロボットがスイッチを 切らせてくれるかということです。 古典的なやり方をするなら 「コーヒーを取ってくる」という目的に対し「コーヒーを取ってこなければならない」「死んだらコーヒーを取ってこれない」と考え 私の講演を聴いていたPR2は「オフ・スイッチは無効にしなければ」と判断し「スターバックスで邪魔になる 他の客はみんな テーザー銃で眠らせよう」となります。
(笑)
これは避けがたい ように見えます このような故障モードは 不可避に見え そしてそれは具体的で絶対的な 目的があることから来ています
目的が何なのか機械に 確信がないとしたら どうなるでしょう? 違ったように推論するはずです 「人間は自分のスイッチを 切るかもしれないが それは自分が何か 悪いことをしたときだけだ 悪いことが何か よく分からないけど 悪いことはしたくない」ここで 第1および第2の原則が 効いています。 「だからスイッチを切るのを 人間に許すべきだ」実際ロボットが人間に スイッチを切ることを許す インセンティブを 計算することができ それは目的の不確かさの度合いと 直接的に結びついています。
機械のスイッチが切られると 第3の原則が働いて 追求すべき目的について 何かを学びます。自分の間違った行いから 学ぶのです。数学者がよくやるように ギリシャ文字をうまく使って そのようなロボットが 人間にとって有益であるという定理を 証明することができます。 そのようにデザインされた機械の方が そうでないものより良い結果になると 証明可能なのです。 これは単純な例ですが、人間互換のAIを手にするための 第一歩です。
3番目の原則については 皆さん困惑しているのでは と思います。「自分の行動は 見上げたものではない。 ロボットに自分のように 振る舞って欲しくはない。 真夜中にこっそり台所に行って 冷蔵庫から食べ物を失敬したり、あんなことや こんなことを しているから」ロボットにしてほしくない 様々なことがあります。 でも実際そういう風に 働くわけではありません。 自分がまずい振る舞いをしたら ロボットがそれを真似する というわけではありません。 人がそのようにする 動機を理解して、誘惑に抵抗する手助けさえしてくれるかもしれません。 それでも難しいです。 私たちがやろうとしているのは、あらゆる状況にある あらゆる人のことを 機械に予測させる ということです。その人たちは どちらを好むのか? これには難しいことが たくさんあって、ごく速やかに解決されるだろうとは 思っていません。 本当に難しい部分は 私たちにあります。
言いましたように、私たちは まずい振る舞いをします。 人によっては 悪質でさえあります。 しかしロボットは人間の振るまいを 真似する必要はありません。 ロボットは それ自身の目的 というのを持ちません。 純粋に利他的です。そして1人の人間の望みだけ 満たそうとするのではなく、みんなの好みに敬意を払うよう デザインされています。だからある程度 悪いことも扱え、人間の悪い面も 理解できます。例えば入国審査官が 賄賂を受け取っているけれど、それは家族を食べさせ 子供を学校に行かせるためなのだとか。ロボットはそれを理解できますが そのために盗みをするわけではありません。ただ子供が学校に行けるよう 手助けをするだけです。
また人間は計算能力の点で 限界があります。李世ドルは 素晴らしい碁打ちですが、それでも負けました。 彼の行動を見れば 勝負に負けることになる 手を打ったのが分かるでしょう。しかしそれは 彼が負けを 望んだことを意味しません。彼の行動を理解するためには、人の認知モデルを 逆にたどる必要がありますが。それは計算能力の限界も含む とても複雑なモデルです。それでも私たちが理解すべく、取り組めるものではあります。
AI研究者として見たとき 最も難しいと思える部分は 私たち人間が 沢山いるということです。だから機械は トレードオフを考え、沢山の異なる人間の好みを 比較考量する必要があり、それには いろいろなやり方があります。経済学者 社会学者 倫理学者は そういうことを分かっており、私たちは協同の道を探っています
そこをうまくやらないと どうなるか見てみましょう。たとえばこんな会話を 考えてみます。知的な秘書AIが 数年内に利用可能に なるかもしれません。強化されたSiriのようなものです。Siriが「今晩のディナーについて 奥様から確認の電話がありました」と言います。あなたはもちろん忘れています。「何のディナーだって? 何の話をしているんだ?」
「20周年のディナーですよ 夜7時の」
「無理だよ、7時半に 事務総長と会わなきゃならない。どうして こんなことに なったんだ?」
「警告は致しましたが、あなたは推奨案を無視されました」
「どうしたらいいんだ? 忙しくて行けないなんて言えないぞ」
「ご心配には及びません 事務総長の飛行機が遅れるように手配済みです」
(笑)
「コンピューターに 細工しておきました」
(笑)
「えっ そんなことできるのか?」
「大変恐縮して 明日のランチでお会いするのを 楽しみにしている とのことです」
(笑)
ここでは価値についてちょっと行き違いが起きています。 Siri は明らかに 妻の価値観に従っています。「妻の幸せが 夫の幸せ」です
(笑)
別の方向に行くことも あり得ます。忙しい仕事を終え 帰宅すると コンピューターが言います。「大変な1日だったようですね」
「昼を食べる時間もなかったよ」
「お腹が空いたことでしょう」
「ああ 腹ペコだよ 何か夕食を作ってもらえるかな?」
「そのことで お話ししなければ ならないことがあります」
(笑)
「南スーダンには、あなたよりも 必要に迫られている人々がいます」
(笑)
「行くことに致しましたので 夕食はご自分で作ってください」
(笑)
こういった問題を解かなければなりません。そういう問題に取り組むのは 楽しみです
楽観しているのには 理由があります。1つには 膨大なデータがあること。思い出してください。機械は人類が書いたあらゆるものを 読むことになるでしょう。人間の書いたものはたいがい 誰かが何かをし 他の人がそれに腹を立てたというものです。学べるデータが膨大にあります。
また これを正しくやるための 強い経済的インセンティブが 存在します。家に家事ロボットがいると 想像してください。あなたはまた仕事で帰りが遅く、ロボットは子供達に食べさせなければなりません。子供達はお腹を空かせていますが 冷蔵庫は空っぽです。そこでロボットは猫に目を止めます。
(笑)
ロボットは人間の価値観を ちゃんと学んでいないため、猫の持つ感情的価値が 猫の栄養的価値を上回ることを理解しません。
(笑)
するとどうなるでしょう? 「狂ったロボット 子猫を料理して夕食に出す」みたいな見出しを見ることになります。このような出来事1つで、家事ロボット産業はお終いです。だから超知的な機械に到達するずっと以前に この問題を正すよう大きなインセンティブが働きます。
要約すると、私はAIの定義を変えて 人間のためになると証明可能な機械が 得られるよう試みています。その原則は、機械は利他的であり、人間の目的のみを達成しようとするが、その目的が何かは確信を持たず、そしてすべての人間を観察することで、我々の本当に望むことが何かを学ぶ ということです。その過程で 人類がより良い者になる術を 学ぶことを望みます。ありがとうございました。
(拍手)
(クリス・アンダーソン) すごく興味深いね。スチュワート 次のスピーカーのための 準備があるので 少しここで話しましょう。
質問があるんですが「無知にプログラムする」というアイデアは とても強力であるように思えます。 超知的になったロボットが文献を読んで、無知よりも知識がある方が 良いと気付き、自分の目的を変えて プログラムを書き換えてしまう — そういうことに ならないためには どうすれば 良いのでしょう?
(スチュワート・ラッセル) 私たちはロボットに人間の目的をよく学んで ほしいと思っています。 ロボットは より正しくなるほど 確信を強めます。 手がかりはそこに あるわけですから。 それを正しく解釈するよう デザインするのです。 たとえば本の内容には バイアスがあることを 理解するでしょう。 王や王女や エリートの白人男性がしたことばかり 書かれているといった風に。 だから複雑な問題ではありますが、ロボットが我々の目的を 学べは学ぶほど、我々にとって 有用なものになるでしょう。
(クリス) 1つの原則にまとめられないんですか? 固定したプログラムとして「人間がスイッチを切ろうとしたら無条件に従う」みたいな。
(スチュワート) それは駄目ですね。まずいアイデアです。自動運転車で 5歳の子を幼稚園に 送るところを 考えてみてください。車に1人で乗っている5歳児が、車のスイッチを切れるようにしたいと思いますか? 違うでしょう。ロボットは その人間がどれほど理性的で 分別があるかを理解する必要があります。人間が理性的であるほど スイッチを切らせる見込みは 高くなります。 まったくランダムな相手や 悪意ある人間に対しては なかなかスイッチを切らせようとは しないでしょう。
(クリス) スチュワート、あなたが みんなのためにこの問題を解決してくれることを切に望みます。 ありがとうございました。素晴らしいお話でした。
(スチュワート) どうもありがとう
(拍手)
超知的な人工知能(AI)の力を享受しながら、機械に支配される破滅的な未来を避けるというのは、どうしたらできるのでしょう? 全知の機械の到来が近づきつつある中、AIのパイオニアであるスチュワート・ラッセルが取り組んでいるのは少し違ったもの──確信のないロボットです。常識や利他性その他の深い人間的価値に基づいて問題解決をする「人間互換のAI」という彼のビジョンに耳を傾けましょう。