注:本記事は(2021年6月30日)に公開された(A New Ethics of AI)を翻訳して公開したものです。

人は何でもひとまとめにしがちです。ですから機械支援型思考はどのようなタイプもすべて「人工知能(AI)」と呼ばれます。

私たちが本当の意味でAIまたは機械学習について語る時は、分析へのアルゴリズム的手法を意味します。つまり私たちが膨大な量のデータを調べる中で、人工知能が物事を見出す手伝いをしてくれるのです。私たちでは見つけるのに苦労するであろうことを教えてくれます。

ここで登場するのが機械学習です。要するにモデルをトレーニングするのです。私たちがモデルという時、それはすなわちコードのことを意味します。コード化されたアルゴリズム、コード化されたセットです。統計モデルもそれと同じ意味です。ですから世界のデータアーキテクトにとって、データモデルを考えるとき、私たちはテーブル、カラム、そしてリレーションシップについて考えます。しかし一番単純な形式では、特定のデータセットを指します。

有名な例を1つ紹介しましょう。アルゴリズムに猫の写真のみを与えた場合、アルゴリズムが知っているのは猫についてのみとなります。そしてあなたがアルゴリズムに質問をするとき、アルゴリズムが言える最初のことは「それは猫ですか、または猫ではありませんか?」です。すると結果はどうなるでしょう。データの世界では、これをスキューと呼びます。このデータは一つの方向にスキューしています。なぜなら与えたデータがごく限られたものだからです。データの倫理について語る時、忘れてはならないのはバイアスです。猫を過剰に偏重することも、ある種のバイアスです。構造的にデータには、機械学習アルゴリズム内でどのように関係しているかによって、バイアスが生じる可能性があります。

猫は一見、大きな問題ではないように見えます。しかし同じ構造が雇用についてだとしたらどうでしょう。たとえば、パンデミック真っ最中の2020年7月における失業率データを見てみましょう。もし経済に関する予測がそのようなデータセットに基づくものだったら、結果は偏ったものになります。だからこそ、機械学習においてはデータが多ければ多いほど良いのです。パンデミックの最中のデータにパンデミックの前と後の雇用に関するデータセットを追加すれば、バイアスを減らすことができるでしょう。

機械学習におけるバイアスを検証するとき、データセットはほんの手始めにすぎませんが、取り組むべき最初の要素です。機械学習アルゴリズムにどのデータを提供するか。そのデータはどこから来たか。結果を前もって仮定せずに十分な量のデータセットを入手できているか。これが基本レベルの問いかけです。

データセットの量と言えば、あなたはそれをどこから入手しますか?購入の必要があるでしょうか。おそらくそうでしょう。たいてい情報は多いほど良いですが、その場合も、データに生じ得るバイアスを回避する必要があります。

アルゴリズムはコード化されたバイアスである

業界の著名なソートリーダーDonald Farmer氏は、アルゴリズムに先入観またはバイアスが生じ得るか質問されたとき、ずばり「もちろんだ」と答えました。アルゴリズムはコード化されたバイアスであると。1

つまり最初の問題はデータ内に潜在するバイアスでしたが、今度はアルゴリズム自体に目を向けねばなりません。アルゴリズムは、誰がどのように書いたかでバイアスが生じる可能性があります。そこで、職場の多様性について考えてみましょう。多様性には、経験、社会経済的背景、民族、人種など、あらゆる側面があります。1つの要素だけではありません。アナリティクスの多くの事柄と同様、人生の多くの事柄と同様、多次元的です。アルゴリズムがどのようにコード化されるかは、コーディングを行う人の思考プロセスに依存します。アルゴリズムは私たちを反映しています。私たちの期待と限界の両方をです。

たとえばAmazonの場合、就職希望者に関して自動での人材評価を試みましたが、AIは一貫して女性に不利な結果を出しました。2 その仕事に応募してきた女性は第一段階を突破できないのです。なぜなら過去にその仕事に就いてきたのは主に男性だと、関連するデータセットが示したからです。現在、私たちは職場の多様性を推進するため、テクノロジーの分野でより多くの女性を雇用しようとしていますが、このようなアルゴリズムが前世代の偏りをさらに強固なものにしてしまうのです。

課題

よって課題は、アルゴリズムだけでなく、データ、結論、そして結果を、公平かつ公正に、包容力のある形で見ることができるチームを構築することになります。これには、AIリスクフレームワークや評価フレームワークのほか、人々がこうした問題の解決に積極的に携わるある種の倫理プログラムといったものへの投資が必要となります。

すべてが自動化可能なわけではないのです。少なくとも現時点では。データガバナンスカウンシルまたはデータガバナンスボードといった、出力とプロセスを検証し、バランスを確保するための人材から成るチームが必要となります。さらに、プライバシーといった問題も人に対応させる必要があります。倫理とは、バイアスを排除することだけではありません。これには会社が取り組む必要がある他のあらゆる問題が含まれています。たとえば、「私の情報はあなたにシェアしません。それは単に私のデータだけでなく、そのデータがいかにアルゴリズムと関係するかも意味します。」

よって、倫理的なAIプロセスを確立するには、うかつにもステレオタイプを促すような、またはコンプライアンス規制に違反するような追加的リスクを生じさせないよう徹底する必要があります。

最初の3つのステップ

AIの倫理に関する議論は、正しい行いをしたい、カスタマーに貢献したいと考える企業にとって不可欠な仕事です。議論のための議論は修辞的だと退けるべきでなく、しなければならないことです。しかし同時に、会社内で倫理的なムーブメントを起こすには、具体的で周到に作り込まれたアクションが必要です。これを実現するため、私たちの誰もが実行できる最初の3つのステップについて説明しましょう。

1. 倫理を定義する

まず初めに、倫理という言葉が何を意味するかを定義し、その定義を会社の価値観と一致させます。組織内で、AIの倫理が重要であるという認識を高める必要があります。AI倫理基準へのコンプライアンスを追跡・監視する、ある種の枠組みを構築してください。つまりすべてのアナリティクスと同様、KPIを定義する必要があります。倫理的AIの導入について、成功か失敗かをどのように測定しますか?

次に、あなたがどうやってその倫理像に到達したかを明確に伝える必要があります。伝える際には、経営やガバナンスの側面と併せて、関係者や公共に向けて明確に述べます。プライバシーや自分のデータの用途について懸念する人々が増えているなか、透明性の確保は、組織の評判に影響し得る重要な要素です。

2. バイアスのないデータセットを見つける

あなたが既に構築とテストが完了したAIプログラムを購入したところ、カスタマーがそれを絶賛し、得られた結果について証言してくれているとします。となると、それもAIにフィードする必要があるでしょう。あなたは、AIに取り込むのに適したバイアスのないデータセットが得られているでしょうか。私が思うに、これは倫理的AIにとって最大の障壁です。これには優れたデータ管理とデータガバナンスが必要で、それに照らしてデータをプロファイリングすることが可能となります。データがどれくらい新しいか、どこから取得されたか、データのプロファイルがAIへの取り込みに適しているかという、データリネージを追跡できなくてはなりません。

繰り返しますが、考慮すべきはデータセットのみではなく、データセットを動かすアルゴリズムも同様です。

企業は、独自のデータセットを構築する際、バイアスがかかったデータセットやアルゴリズムから守るために下記を考慮する必要があります。

  • モデルに取り込むデータセットのソース、種類、完全性、適切性。調査対象に関して、包括的で多様なデータが含まれているでしょうか。含まれていない場合、合成データを追加して、データセットをよりバランスのとれたものにすることも可能です。
  • 誰かの視点によって無意識のバイアスがかかり、結果にスキューが生じないよう、モデル構築チームの多様性と包括性が確保されているでしょうか。
  • モデルの出力を評価するためのレビュープロセスを設け、結果にバイアスがないか、また提案された行動が倫理的なものかを確認しているでしょうか。モデルの結果がビジネスの価値観や目標に沿っているでしょうか。

サードパーティのデータセットにも同じことが当てはまります。基本的に、データとプロバイダーの両方に関して、デューデリジェンスを行う必要があります。

3. AIとカスタマーとの間の関係を倫理的なものにする

見込み客として、私が何かを買うとき、またはネットでページを見ているだけでも、私の関心に合わせた何かを提案したくなることでしょう。しかしやり方がうまくないと、提案内容が不適切になったり、押し売りのようになったりすることもあります。ガレージドアのページを1回見たからといって、サインオンするたびにガレージドアの広告が何十も表示されるのは必ずしも有難いものではありません。それどころか頼んでもいないのに迷惑です。これは明らかにカスタマーの立場を考えていません。私の情報が非倫理的に利用されているとすら感じられます。

これを踏まえると、さらに基本的な質問にたどり着きます。それは会社として、たとえカスタマーのオンラインエクスペリエンスを円滑にする意図があるとしても、カスタマーから得たデータを利用することは倫理的でしょうか。

もう1つの例は、多くの人がご存知のCambridge Analyticaの事件です。3 これがデータの非倫理的利用であることは、今や皆が認めるところです。この例では、Facebookによって許可なく見返りなしで収集されたデータがCambridge Analyticaに漏れており、さらにCambridge Analyticaはそのデータを政治グループに売却していました。このようなことは、データを提供した本人が知り得ていたら決して許可しなかったでしょう。

こうした認識の問題は、私たちをスタート地点へと引き戻します。私たちはデータ、アルゴリズム、機械学習、人工知能の扱い方における倫理を受け入れ、検証する必要があります。私たちは、カスタマーが何を望んでいるかを知らなければ、カスタマーの役に立つことはできません。一方カスタマーとしての私たちは、自らが何を望み、何に対して喜んでお金を出すのかを認識していなければ、企業が何をすべきで、何ができるかを理解することはできません。

言い換えると、私たちは自分自身や他者と話し合う必要があります。これは、互いに倫理的な機械学習環境を作り上げる素晴らしいチャンスです。

詳しくはこちら

AIの倫理について更に詳しくは、こちらの記事をお読みください。

Ethics of Artificial Intelligence and Robotics(人工知能とロボット工学の倫理) これは、ロボット工学とAIの倫理に関する、スタンフォード哲学百科事典からの学術記事です。 

A Practical Guide to Building Ethical AI(倫理的AIを構築するための実践ガイド):これは、データやAI倫理を運用する際に企業が考慮すべき方法論を提案するHBR記事です。


1 medium.com/@donalddotfarmer/algorithmic-bias-ced8ff08f883
2 reut.rs/3gJLtar
3 nytimes.com/2018/04/04/us/politics/cambridge-analytica-scandal-fallout.html