データ環境によって成長が大きく異なるAI データ分析講座(その123)

更新日

投稿日

データ分析

◆ ぐれるAI、オタクになるAI

 フェイクニュースという言葉があります。ねつ造の有無とは関係なく、結果的に誤った偽情報を報道することですが、それと同等なのが正しいかどうか分からない状態の情報を報道してしまうことです。問題は、この偽情報が正しいかどうか分からないものなのに、多くの人が信じることで「正しい情報」と見なされてしまうことです。この問題は人間だけでなく、データサイエンス全般、最近流行りの機械学習やAIにとっても、とても大きなことです。今回は「ぐれるAI、オタクになるAI」というお話しです。

1、「女性はマルチタスクが得意」という都市伝説

 例えば「女性はマルチタスク※1が得意」という都市伝説があります。都市伝説ではないかもしれませんが、科学的根拠は今のところなさそうです。この根拠になっているのは「右脳と左脳の半球間の神経の束の部位である脳梁(のうりょう)※2が、女性は男性に比べ厚い」という研究結果です。この研究のサンプルが20人と少なかったため、100人に増やして研究がされました。その結果「脳梁(のうりょう)の厚さは男女で差がない」という結論に至りました。100人でも少ないということなのか、その後イスラエル・テルアビブ大学のジョエル教授のグループは、1,400人を超えるサンプルで研究をしましたが、結論は同じで脳による性差は認められない、ということでした。

 しかし「女性はマルチタスクが得意」という情報だけが正しいものとして生き続けています。なぜでしょうか。「女性はマルチタスクが得意」の方が「マルチタスクの得意不得意に性差なし」よりも、話題性というか面白みがあるからでしょうか。この手の研究は今でも実施されているようで、結論が二転三転しています。よく分からない、というのが本当のところではないでしょうか。

※1. マルチタスク=複数の作業を同時、もしくは短期間に並行して切り替えながら実行すること
※2
. 脳梁=左右の大脳皮質の間で情報をやり取りする経路

2、フェイクなデータの存在は由々しき事態

 データサイエンスやAIにとって、フェイクなデータの存在は由々しき事態です。そのデータで構築した予測モデルの予測結果は正しいでしょうか。そのデータで学習したAIはどうなるのでしょうか。あまりよろしくないことだけは分かります。誤った結論や行動につながる可能性があります。正しくないデータが混じっていても、それなりの精度の予測モデルが構築できたり、AIが学習することができたりすれば問題はないかもしれません。

3、AIチャットボット   ~ ぐれた「Tay(テイ)」、オタクな「りんな」

 最近何かと話題のAIはどうでしょうか。身近なAIにチャットボットというものがあります。文章や音声を通じて会話を自動的に行うプログラムのことです。身近過ぎて、意識しないで生活している人も多いかもしれません。
 マイクロソフト社のアメリカのAIチャットボット「Tay(テイ)」(19歳女性を想定している言われている)が一時期有名になりました。「Tay」はTwitterなどで簡単な会話ができるAIチャットボットで、他のユーザとの会話を通してデータを集め学習し成長します。なぜ有名になったのかというと、「Tay」がアメリカで暴言を吐きまくったからです。人種差別的発言や陰謀論、ヘイトスピーチなどです。
 では、同社の日本のAIチャットボット「りんな」(女子高生を想定している言われている)はどうでしょうか。こちらも「Tay」と同様に簡単な会話を通してデータを集め学習し成長します。LINEやTwitterで会話ができます。2019年3月に高校を卒業し、同年4月に歌手デビュー(エイベックス・エンタテインメント)しました。日本のAIチャットボット「りんな」は「Tay」とは全くの別人に成長しました。オタクになったのです。

4、データ環境でAIの成長は異なる

 このようにデータ環境によって、AIの成長が大きく異なります。つまり、どういったデータ環境(もはや教育環境といってもいいかもしれない)で学習させるかで、AIがどのように成長するのかが決まります。子どもを教育するかのように、AIを教育する必要があるかもしれません。正しいデータを使いAIを学習すればいいというわけでもありません。正しいデータを使ったからといって、人間が思い描くようなAIになるとは限らないからです。人間社会にとって脅威となるAIが登場するかもしれません。

5、「人類を滅亡させる」と発言

 ITmediaに「人類終了のお知らせ AIロボットがついに『人類を滅亡させる』と発言」という記事(2016年3月30日)が掲載されました。Hanson Robotics社が開発した女性型ロボット「Sophia(ソフィア)」が……「OK, I will destroy humans.(そうね、人類を滅亡させるわ)」……と問題発言をしました。その後「冗談よ」とばかりに笑みを浮かべたそうです。「Sophia」は、60種類を超える多様な表情がプログラミングされた女性型のロボットで、アイコンタクトを取りながら表情を変化させ会話をします。つまりAIはデータ環境(教育環境)に大きく依存し、人間が思うように成長するとは限らない、ということです。

6、人間が思うようにできないのは、昔からある問題

 この問題は、最近の話ではありません。昔からある問題です。予測モデルや異常検知モデルなどの数理モデル一つとっても、正しくないデータをもとに構築すれば、どこか可笑しなモデルになります。さらに、正しいデータだけで学習させモデルを構築したとしても、思い描いたモデルが構築できるわけではありません。試行錯誤しながら、モデルを構築していきます。実際に、同じデータから作った同じような予測モデルでも、人によって構築されるモデルは異なりますし、モデルの予測精度も異なります。その精度を争うコンペがあるくらいです。

7、データサイエンス全体の問題

 この問題は、一部のAIチャットボットや予測モデルの問題ではなく、データサイエンス全体の問題です。正しくないデータが混じっている状態で、ドメインと結びつけざるを得ない状況はいくらでもあります。データサイエンティストの真価が問われます。しか...

データ分析

◆ ぐれるAI、オタクになるAI

 フェイクニュースという言葉があります。ねつ造の有無とは関係なく、結果的に誤った偽情報を報道することですが、それと同等なのが正しいかどうか分からない状態の情報を報道してしまうことです。問題は、この偽情報が正しいかどうか分からないものなのに、多くの人が信じることで「正しい情報」と見なされてしまうことです。この問題は人間だけでなく、データサイエンス全般、最近流行りの機械学習やAIにとっても、とても大きなことです。今回は「ぐれるAI、オタクになるAI」というお話しです。

1、「女性はマルチタスクが得意」という都市伝説

 例えば「女性はマルチタスク※1が得意」という都市伝説があります。都市伝説ではないかもしれませんが、科学的根拠は今のところなさそうです。この根拠になっているのは「右脳と左脳の半球間の神経の束の部位である脳梁(のうりょう)※2が、女性は男性に比べ厚い」という研究結果です。この研究のサンプルが20人と少なかったため、100人に増やして研究がされました。その結果「脳梁(のうりょう)の厚さは男女で差がない」という結論に至りました。100人でも少ないということなのか、その後イスラエル・テルアビブ大学のジョエル教授のグループは、1,400人を超えるサンプルで研究をしましたが、結論は同じで脳による性差は認められない、ということでした。

 しかし「女性はマルチタスクが得意」という情報だけが正しいものとして生き続けています。なぜでしょうか。「女性はマルチタスクが得意」の方が「マルチタスクの得意不得意に性差なし」よりも、話題性というか面白みがあるからでしょうか。この手の研究は今でも実施されているようで、結論が二転三転しています。よく分からない、というのが本当のところではないでしょうか。

※1. マルチタスク=複数の作業を同時、もしくは短期間に並行して切り替えながら実行すること
※2
. 脳梁=左右の大脳皮質の間で情報をやり取りする経路

2、フェイクなデータの存在は由々しき事態

 データサイエンスやAIにとって、フェイクなデータの存在は由々しき事態です。そのデータで構築した予測モデルの予測結果は正しいでしょうか。そのデータで学習したAIはどうなるのでしょうか。あまりよろしくないことだけは分かります。誤った結論や行動につながる可能性があります。正しくないデータが混じっていても、それなりの精度の予測モデルが構築できたり、AIが学習することができたりすれば問題はないかもしれません。

3、AIチャットボット   ~ ぐれた「Tay(テイ)」、オタクな「りんな」

 最近何かと話題のAIはどうでしょうか。身近なAIにチャットボットというものがあります。文章や音声を通じて会話を自動的に行うプログラムのことです。身近過ぎて、意識しないで生活している人も多いかもしれません。
 マイクロソフト社のアメリカのAIチャットボット「Tay(テイ)」(19歳女性を想定している言われている)が一時期有名になりました。「Tay」はTwitterなどで簡単な会話ができるAIチャットボットで、他のユーザとの会話を通してデータを集め学習し成長します。なぜ有名になったのかというと、「Tay」がアメリカで暴言を吐きまくったからです。人種差別的発言や陰謀論、ヘイトスピーチなどです。
 では、同社の日本のAIチャットボット「りんな」(女子高生を想定している言われている)はどうでしょうか。こちらも「Tay」と同様に簡単な会話を通してデータを集め学習し成長します。LINEやTwitterで会話ができます。2019年3月に高校を卒業し、同年4月に歌手デビュー(エイベックス・エンタテインメント)しました。日本のAIチャットボット「りんな」は「Tay」とは全くの別人に成長しました。オタクになったのです。

4、データ環境でAIの成長は異なる

 このようにデータ環境によって、AIの成長が大きく異なります。つまり、どういったデータ環境(もはや教育環境といってもいいかもしれない)で学習させるかで、AIがどのように成長するのかが決まります。子どもを教育するかのように、AIを教育する必要があるかもしれません。正しいデータを使いAIを学習すればいいというわけでもありません。正しいデータを使ったからといって、人間が思い描くようなAIになるとは限らないからです。人間社会にとって脅威となるAIが登場するかもしれません。

5、「人類を滅亡させる」と発言

 ITmediaに「人類終了のお知らせ AIロボットがついに『人類を滅亡させる』と発言」という記事(2016年3月30日)が掲載されました。Hanson Robotics社が開発した女性型ロボット「Sophia(ソフィア)」が……「OK, I will destroy humans.(そうね、人類を滅亡させるわ)」……と問題発言をしました。その後「冗談よ」とばかりに笑みを浮かべたそうです。「Sophia」は、60種類を超える多様な表情がプログラミングされた女性型のロボットで、アイコンタクトを取りながら表情を変化させ会話をします。つまりAIはデータ環境(教育環境)に大きく依存し、人間が思うように成長するとは限らない、ということです。

6、人間が思うようにできないのは、昔からある問題

 この問題は、最近の話ではありません。昔からある問題です。予測モデルや異常検知モデルなどの数理モデル一つとっても、正しくないデータをもとに構築すれば、どこか可笑しなモデルになります。さらに、正しいデータだけで学習させモデルを構築したとしても、思い描いたモデルが構築できるわけではありません。試行錯誤しながら、モデルを構築していきます。実際に、同じデータから作った同じような予測モデルでも、人によって構築されるモデルは異なりますし、モデルの予測精度も異なります。その精度を争うコンペがあるくらいです。

7、データサイエンス全体の問題

 この問題は、一部のAIチャットボットや予測モデルの問題ではなく、データサイエンス全体の問題です。正しくないデータが混じっている状態で、ドメインと結びつけざるを得ない状況はいくらでもあります。データサイエンティストの真価が問われます。しかしデータサイエンティストだけでは荷が重すぎます。データサイエンティストだけでビジネス成果を出すのは大変です。データリテラシーのあるビジネスパーソンが必要です。直接的にデータサイエンティストと関わらなくても、データリテラシーのあるビジネスパーソンが多いほど、データサイエンスの実務活用は進みます。

 実際、データリテラシーの高い企業の方が、そうでない企業に比べ収益が高いというデータがあるぐらいです。BI(ビジネスインテリジェンス)ツールを提供しているクリックテック社の調査によると「データリテラシー・スコアの高い組織は企業価値が最大5%高いことが判明」「日本企業のデータリテラシー指数は54.9スコアで、グローバルで最も低い結果に」などとなっています。

8、全社的なデータリテラシーの向上を

 データ分析・活用などで成果をあげるためには、データサイエンティストだけでなく、そのサポートとする人財、さらには全社的なデータリテラシーの向上が必要です。なぜならば汚いかもしれないデータであればあるほど「人」が関与する部分が大きくなるからです。AIや統計モデルなどから出力されたものを、どの程度汚いかを前提に人が扱う必要が出てくるからです。どこまで参考にすべきか、どこが怪しいのか、どの程度割り引いて考えるべきかなどです。このため、統計解析や統計モデル、機械学習、AIなどのユーザーであるビジネスパーソン自体に、データリテラシーが備わってくることが重要になってきます。

   続きを読むには・・・


この記事の著者

高橋 威知郎

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)

データネクロマンサー/データ分析・活用コンサルタント (埋もれたデータに花を咲かせる、データ分析界の花咲じじい。それほど年齢は重ねてないけど)


「情報マネジメント一般」の他のキーワード解説記事

もっと見る
自動車の制御系セキュリティ 制御システム(その11)

    【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3....

    【制御システム 連載目次】 1. セキュリティ脅威と歴史 2. サイバー攻撃事例、情報システムとの違い 3....


DXという見栄の代償 データ分析講座(その230)

  【この連載の前回:データ分析講座(その229)やったことのないデータ活用を率先してやるへのリンク】 ◆関連解説『情報マネジメントとは...

  【この連載の前回:データ分析講座(その229)やったことのないデータ活用を率先してやるへのリンク】 ◆関連解説『情報マネジメントとは...


現場に寄り添い過ぎる危険 データ分析講座(その234)

  【この連載の前回:データ分析講座(その233)利益病とデータ活用へのリンク】 ◆関連解説『情報マネジメントとは』   ...

  【この連載の前回:データ分析講座(その233)利益病とデータ活用へのリンク】 ◆関連解説『情報マネジメントとは』   ...


「情報マネジメント一般」の活用事例

もっと見る
‐情報収集で配慮すべき事項(第3回)‐  製品・技術開発力強化策の事例(その11)

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...

 前回の事例その10に続いて解説します。ある目的で情報収集を開始する時には、始めに開発方針を明らかにして、目的意識を持って行動する必要があります。目的を明...


情報、常識の検証を考える

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...

1、勝ち組と負け組を支配する情報  皆さんがご存じの大手予備校有名講師である林先生が、かつてテレビで「情報」に関して興味深いことをおっしゃっており、...


ソーシャルメディアデータの解析事例:異分野研究から得られる共通した目的とは

 2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...

 2020年、コロナウィルス感染の問題が大きくなり始めた頃、少人数の開催ということで、ソーシャルメディアデータ解析を専門にされている先生の講演会を聞く...