blockchainjapan’s blog

旬のブロックチェーンを記事を厳選して提供!

HUMAN Protocolとバイアスの基礎知識


HUMAN Protocolとバイアスの基礎知識

著:HUMAN Protocol

HUMAN Protocolでは、バイアス(偏見、偏り、癖や固有の情報特性)についてよく議論されます。機械学習におけるバイアスは、MLやAIの進歩にとって重要な懸念事項であり続けています。AIプロダクトによってバイアスが生じるというケースは、業界に懸念をもたらし、すでに法的機関がAIのバイアスによる悪影響を制限する為の規制や規格を導入するよう促しています。私たち全員がこの「バイアス」について理解し、HUMAN Protocolがどのようにこの問題に対するソリューションを提供しているかを理解することが重要です。バイアスを完全に失くすことはできませんが、制限することは可能です。バイアスの詳細については、近日中にバイアスの複雑さ(および種類)を掘り下げた記事を公開する予定です。

ここでは基本的な理解のために、バイアスの2つの異なる意味を取り上げます:

人間から生じるバイアスとは、特定の対象に対する好意や偏見という形で理解されています。これは特定の対象に対する贔屓や視点の違いによるもので、対象は人、集団、思想、物などを問いません。人的バイアスは、無害なものでは特定のこだわりという形で現れ、有害な形では人種差別として表れることもあります。

統計的なバイアスとは、統計値があるパラメータを過大または過小に評価することで現れるものです。パラメータとは、例えば絶対値のことです:

  • 従業員が全ての同僚に「アイスクリームは好きですか?」と聞いたところ、90%が「はい」と答えました。

これは、全ての対象に質問したパラメータとなります。

  • 一方、統計値はサンプルに基づくものです。ある従業員が、金曜日にオフィスにいる全ての同僚に尋ねました。2人が病欠。3人は会議で外出しています。同じ質問をしたところ、結果は70%でした。

これは統計的バイアスの一例です。統計値(アイスクリームが好きな同僚が70%)は、パラメータ(アイスクリームが好きな同僚が90%)で定義される真実を過小評価しています。

この問題を解決するのは簡単です。

解決策は?「すべての同僚に聞いてみましょう。」

しかし、アイスクリームについて尋ねるのではなく、次のような質問で感情認識ソフトウェアを構築しようとする場合はどうでしょうか?

この顔は怒っていますか、悲しんでいますか、それとも驚いていますか?

絶対的な表現の難しさは、表現される人の数が多いほど増します。アイスクリーム屋さんの件の同僚と違って、MLの実務者は世界中の人に聞くことはできません。仮にできたとしても、多数派とは異なる答えを持った世界の集団にとっては、パラメータは意味のないものになってしまいます。

このような質問に対する人々の答えは、本質的に主観的なものです。人々の考える感情は、学習的、生得的な多くの人種的、社会的、文化的要因に依存しています。

では、誰を選んで質問するのか?どのような集団なのか?

これらの質問に対する答えは、AI分野におけるバイアスの根源を明らかにしています。

AIにおけるバイアス

AI製品は、サンプルデータに基づいて機械が独自のアルゴリズムを作成する、機械学習を用いて構築されています。機械は決して何かを「理解」しているわけではなく、既に見たものから予測パターンを得て動作しているのですが、ここに問題があります。

AIはより良い未来のために構築しますが、過去のデータ、あるいはせいぜい今日のデータに基づいて行わなければなりません。本質的に主観的で、限定的で、偏見に満ちた世界で効果的に機能しようとする一方で、誰にとってもより平等な未来を創造しようとしているのです。

この問題はよく知られています。

COMPASは、犯罪者の再犯の可能性を予測するためのMLソフトウェアです。米国の裁判所で意思決定支援ツールとして使用されています。

Propublicaはこのソフトウェアを調査しました。使用されたデータとその使用方法から、ソフトウェアは『2年間で再犯しなかった黒人被告は、白人被告に比べて高リスクと誤分類される確率が約2倍(45%対23%)になる』と予測しました。

私たちが話している問題は、黒人の再犯率が高いと予測されたことではありません。問題は、統計が被告人の再犯の可能性を「誤って分類」したことです。

これはどのようなバイアスなのでしょうか?

ここで、バイアスの種類についての理解が役に立ちます。なぜなら、バイアスの表れは人種差別という人間的・社会的なものですが、その根源は統計的なものだからです。このような問題は感情的になりがちですが、根本はデータにあることを忘れてはいけません。ソフトウェア自体に人種差別はありませんが、アルゴリズムに欠陥があったり、十分に詳細でない、あるいは多様なデータに依存している場合があります。この場合、アルゴリズムは本来の目的である再犯率の正確な測定を行っていないことになります。

機械がより良いデータを持っていれば、より正確で、より代表的な結果を出すことができるでしょう。しかし、どうすればより良いデータが得られるのでしょうか?また、「より良い」とは何を意味するのでしょうか?

ソリューション

HUMAN Protocolは、膨大なデータラベリング能力へのアクセスを提供します。HUMAN Protocolは、大量のデータを作成するだけでなく、詳細で関連性の高いデータを大量に作成するのにも役立ちます。HUMAN Protocolは、組織が特定のデータラベリング作業を完了するためのインセンティブを与える手段(グローバルな労働市場)を提供することで、より具体的なデータセットを作成することでこれを実現しています。HUMAN Protocolは、グローバルに代表的なデータセットを提供し、それを通じてより正確なマシンインテリジェンスを提供するために、何億もの規模で人間がマシンと対話するケースを適用することを保証します。

MLに関して言えば、量はそれ自体が質です。データポイントが多ければ多いほど、エッジケースが全体のコンセンサスによって異常値として反映される可能性が高くなります。

多様性

HUMAN Protocolでは、247の国と地域で活動するレスポンダーが登録されています。これは、データサイエンティストに世界を代表するデータを提供し、彼らが活動する世界を理解する製品を生み出すために不可欠なものです。

アクセス

HUMAN Protocolは、データサイエンスへの参入障壁を低くします。多くの人にとって、データラベリングサービスを運営することはコストがかかりすぎます。そのため一般的には、AI製品を作る人の声は限られてしまうものです。実際には、AIのトレーニングに必要なパラメータを設定するのは、大学院生やデータ入力の専門家、AIアーキテクトなどです。

これは、AI製品をトレーニングする人たちを非難しているのではなく、限られた人たちにグローバルな文脈で製品をトレーニングさせるのは、おそらく不適切であると認識しているからです。実際のところ「スタンダード」を作れる人は一人もいません。これは、より多くの人、より多くの視点、より多くの文化的背景を持つ人にアクセスさせることが、世界をよりよく理解・反映させた製品を作るのに役立つということです。そして、世界を完全に把握するためには、あらゆる種類の視点が必要なのです。

コントロール

さらにHUMAN Protocolでは、データセット作成者がバイアスをコントロールすることができます。データにバイアスが生じるのは避けられないことなのであれば、それを認識するということが最善です。私たちのプロトコルでは、組織が特定のグループを対象とすることができるため、バイアスは彼らの手の中にあり、製品を作成するための理解の文脈の一部となっています。

結論

バイアスを完全になくす事は、無理な事です。主観性は私たちの中にコード化されています。しかし、AIやMLを使った技術開発者たちが、より代表的な製品を作るために必要な膨大な量の多様なデータにアクセスできるようにすることで、AIにおけるバイアスの発生を抑制することができます。

私たちがAIのバイアスと言っているのは、実際には、貧弱かつ不十分で、アンバランスなデータを使って、貧弱かつ不十分で、アンバランスな世界観を反映した製品を作ってしまったということなのです。私たちがバイアスと呼んでいるものは、実はデータエラー、つまりデータ不足が起因する意図しない結果なのです。なぜなら、バイアスは社会的な問題を示唆しているのに対し、AIが利用するデータにはその原因があり、解決策を講じるべき領域があるからです。この2つは、全く関連性がないわけではありませんが、区別して考えるべきでしょう。そうすることで初めて、データエラーはデータの収集方法、構造、トレーニングへの利用方法に起因することが理解できます。

アイスクリームでも顔認識技術でも、統計的なバイアスはデータセットが十分に詳細でないことに起因しており、一見重要性が大きく異なるように見えるかもしれませんが、その背後にある論理と数学は同じです。

対象となる人が少なければ少ないほど、データに誤差が生じやすくなります。AIや機械学習データにとって量は絶対的な力です。

AIの分野では、そのようなエラーは予期せぬ起こりそのリスクを保有しなければならない地震のようなものであり、AIが未来を創造するために存在するのであれば、過去の過ちを繰り返すだけではなく、より多くの人を代表するモノにする事で、誰にとっても公平な未来を創造することができるようにしましょう。

免責事項:HUMAN Protocol Foundationは、ここに掲載されている情報の正確性、信頼性、完全性、合理性について、明示的にも黙示的にも、いかなる表明、保証、約束も行いません。表現された仮定、意見、推定は、掲載時点でのHUMAN Protocol Foundationの判断であり、予告なく変更されることがあります。ここに掲載された情報に含まれる予測は、多くの仮定に基づくものであり、予測された結果が達成されることを保証するものではありません。


HUMAN Protocolについて

HUMAN Protocolは、機械による学習や仕事をサポートするために、人間が推論やスキル、知識を提供することで報酬を得られる分散型市場をもたらす為のハイブリッドフレームワークです。よりシームレスな管理と決済プロセスのためにブロックチェーン技術を採用したHUMAN Protocolは、完全な監査が成されたオープンソースフレームワークであり、分散型労働市場を構築し、情報やデータの需給に応じて分散型の人間の知識市場を結びつけます。詳細は下記リンクをフォローしてください:

Website / Twitter / Medium / Telegram / LinkedIn / Github

日本版コンテンツはこちら:Twitter / Medium