目次
地理的バイアスがAIに与える影響と、それを防ぐ方法
人工知能は素晴らしいものです。ヘルスケア、ビジネス、政府において、すべての人に公正なアクセスを提供してくれます。
しかしAIが世界中で使われ始めると、コンピューターが人間と同じように差別的で偏見を持つ可能性があることがわかってきました。間違ったデータセットを使用すると、アルゴリズムは人種差別的、性差別的、または排他的になる可能性があるのです。 そして、あまり注目されないもうひとつの偏見に「地理的バイアス」があり、すでにヘルスケア部門において問題を引き起こしています。
今回は、このバイアスがヘルスケアにどのように影響するか、そしてそれを防ぐ方法について解説します。
古い過ちを繰り返したヘルスケアAI
スタンフォード大学の人工知能研究所(HAI)は最近、健康志向の機械学習に関する研究に焦点を当てました。
この調査では、74の異なる機械学習ツールとAIツールのトレーニングに使用されるデータセットを調べました。研究者たちは地理的起源のデータを見て、衝撃的な発見をしました。ツールのほぼ4分の3は、ニューヨーク、カリフォルニア、マサチューセッツの3つの州のデータを使用していました。この3州のデータのうち、16個のみがデータに表示され、34個は完全に非表示になっていたのです。
これは深刻な問題です。ヘルスケアは全国に均等に分散されておらず、医療サービスへのアクセス、化学物質への曝露、水圧破砕やその他の危険な活動への近さ、地域の疫学問題など、人々は州ごとに異なる課題に直面しています。各州の人種的および経済的プロファイルが健康上の結果に影響を与える可能性があるという事実は言うまでもありません。
しかしAIが登場する前から、このような地理的な偏りは大きな問題でした。場所の偏りは常に誤った医療データにつながり、それが誤った医療決定につながるからです。
またAIは、常に公平であるとは限りません。最近のマッキンゼーのレポートでも、「AIはバイアスを減らすのに役立ちますが、バイアスを焼き付けてスケーリングすることもできます」とあるように、アルゴリズムは、処理しているデータと同じくらい客観的であることができるだけなのです。
AIにおける5種類の地理的バイアス
地理的な偏りは、AIが誤った決定を下すことにつながります。しかし、そもそもAIはどのようにしてこのバイアスを獲得するのでしょうか?
ここに5つのよくある間違いを記します。
1.一般的な基準としてひとつの場所を確立する
これは、スタンフォードレポートで特定された問題です。医学研究者は、3つの州のデータを国全体の一般的なモデルとして使用しようとしていました。
ですがヘルスケアを扱う場合は、分析に影響を与える可能性のある地域の違いを考慮する必要があります。それはどんな種類の地域バイアスでも同じです。母集団を比較するときは、次のようなことを確認する必要があります。
- 人口統計
- 人口密度
- サービスへのアクセス
- 地域の経済状況
- インフラ
AIは、与えられたデータでのみ機能します。適切なデータがない限り、異なる母集団の違いを区別することはできません。
2.一部の場所からのデータの欠如
上記の例で述べたように、最大の問題は、一部の場所がデータに反映されていないことです。不完全なデータは、下記のような問題を出現させる可能性があります。
・データの難読化
機密情報を扱う場合、ほとんどの値が難読化されます。つまり、どの領域を見ているのかを常に判断できないのです。
・粒度
カバレッジマップには、さまざまなレベルの粒度があります。たとえば、州、郡、市、または郵便番号ごとにデータを整理できます。データが十分に細かくない場合、死角を特定できない可能性があります。
・不正確な境界線
物理的な境界線と文化的な境界線は一致しないことがよくあります。たとえば、多くの都市には、それぞれ非常に異なる特性を持つアップタウン、ミッドタウン、およびダウンタウンエリアがあります。街全体の平均値を見るだけでは、そのニュアンスを見逃してしまいます。
3.データで過大評価されている主要な場所
小さな場所のデータが、大きな場所のデータに隠されてしまうことがよくあります。地理データは常に都市部に偏っています。これは、農村部よりも都市部に住む人の数が多いためです。
「OpenStreetMapプロジェクト」でユーザーが送信したデータを調査したところ、都市部に大きな偏りが見られました。これは、ほとんどのプロジェクトのユーザーは都市居住者であり、ユーザーは自分が知っているエリアのマッピングに集中する傾向があるためです。
一方、地方の住民や恵まれない地域の人々は、OpenStreetMapに参加する可能性が低くなります。結果として、これらの地域のデータはあまり反映されません。
AIアルゴリズムは、与えられたデータでのみ機能します。データセットが主にニューヨークとLAに焦点を当てている場合、AIはそれらの領域のみ焦点を当ててしまうのです。
4.場所に基づく要素に関する仮定
時間の経過とともに、AIは独自のバイアスを生み出し始める可能性があります。DanielShapiroによる機械学習の論文では、この問題を検証し、ビジネスを分類するアルゴリズムの例を示しています。
「Daniel’sGems」と「Sandy’sGems」という名前のお店を想像してみてください。AIは、「Gems」が宝石や手工芸品という意味があることを知っています。
男性の方が価値の高いお店を所有する可能性が高いとデータが示している場合、AIは、「Daniel’sGems」が宝石店であり、「Sandy’sGems」が小物を販売していると見なすようになってしまうのです。このようなことが、2018年にAmazonで起こっています。
同じバイアスは、場所の名前でも起こる可能性があります。たとえば、ひとつは「Eagleton Gems」と呼ばれ、もうひとつは「Pawnee Gems」と呼ばれる、ふたつのストアを持つデータセットを想像してみてください。
以前のデータが、「Eagleton」という土地の方が、「Pawnee」という土地よりも価値の高いビジネスが行われていることを示している場合、「Eagleton Gems」は「Pawnee Gems」よりも高価な商品を販売していると見なされてしまいます。これは地理的バイアスの例です。
5.文化的および地域的な変動を検出しないデータ
たとえば、「パッカーズビル」と「レイカーストン」という2つの架空の町を想像してみてください。
スポーツマーケティング会社は、ビッグデータとAIを使用し、バスケットボールのデータに基づいてアルゴリズムをトレーニングしています。それぞれどれだけの人がバスケットのゲームに参加したり、テレビでNBAを見たりしているかというデータです。データによると、「レイカーストン」の人々は非常に熱心であり、「パッカーズビル」の人々はスポーツにあまり関心がありませんでした。
ここに問題があります。「パッカーズビル」の人々は、実際にはスポーツを愛しており、彼らはサッカーが好きなのです。しかしAIは、バスケットボールのデータがスポーツへの関与の唯一の指標であると考えるように訓練されているため、アルゴリズムはこれを検出しなかったのです。
このように、一部の地域は文化的に異なるため、同じデータと比較することはできません。地域の好みを反映する新しいデータセットを使用して、AIを最初からトレーニングする必要があります。
AIの地理的バイアスを回避する方法
AIを最初から構築する場合でも、機械学習アルゴリズムをトレーニングする場合でも、固有のバイアスを回避するために実行できる手順がいくつかあります。
・偏見についてオープンに
人間という生き物は、地理的な偏見や、地元の人に対する否定的な意見を持っていることがあります。しかしその偏見は多くの場合、彼らがその場所について知らないというだけのことです。偏見について、オープンで判断力のない会話をするのは良いことです。偏見が存在するということに気付いたら、あなたはその偏見に気をつけ始めることができるからです。
・トレーニングデータセットの監査
AIはデータを分析することで世界を理解します。したがって、偏りのないAIを開発するには、偏りのないデータを提供する必要があります。トレーニングデータが公正、正確、完全であることを保証するために、人間はこの段階で介入する必要があります。
・人間が監査する
AIは完全に独立している必要はありません。人間のオペレーターは、プロセスのさまざまな段階で介入し、偏見が入り込まないようにする必要があります。たとえば、AIがクライアントに手紙を作成しているとします。その場合、人間はそれらの手紙が出される前に監査すべきでしょう。
・結果のセンスチェックを行う
AIと機械学習は、驚くべき結果を生み出すことがあります。私たちが見落としてしまうようなパターンを識別出来るからです。ただし、自動化されたプロセスを確認し、クイックセンスチェックを実行して、明確な誤りがないことを確認した方が良いでしょう。
AIチームに多様性を追加する
最も重要なことは、AIトレーニングチームに多様性があると確認することです。多様なチームだからこそ、地理的な偏りを含め、あらゆる種類の偏見を特定できます。チームの全員が平等な意見を持ち、必要に応じて懸念を表明できることを確認してください。
AIは、平等と表現のための非常に便利なツールです。しかしAIは、データを処理してルールに従うだけです。アルゴリズムが適切なデータを取得することができるかどうかは、私たちの責任なのです。