エビデンスレベルと人工知能と芸術点


「エビデンスベースド」という単語。ここ数年急に耳目に触れるようになった。
エビデンスベースドな教育をしようとか、エビデンスに基づく医療だとか、政策決定もお涙頂戴で煽る「エピソード」ベースドから脱却して科学的根拠をもつようにしようとか。使われ方はもろもろであるが、言葉が市民権を得てきつつある。
おそらくは、あの311の原発事故による農作物などの風評被害へのカウンターとして科学的根拠に基づいたうんぬんというところから裾野がひろがったのではないかと思う。きっかけは悲しいことではあるが、根拠に基づいた議論がなされるようになったのはよいことだとおもう。それが喩え下地程度のものだとしても。

 

エビデンスレベル

「エビデンス」という単語そのものは新しいものではない。十数年前からシステム系の納品物につきまとっていた単語である。法廷や医療でも見かけた。統計の世界ではEvidence based Policyは基礎となる考え方である。
エビデンスレベルについて、おさらいしてみよう。

エビデンスレベル分類

この中で専門家個人による意見というのは、一番科学的根拠がないものとされている。
科学的根拠とは何かというと、再現性があること、同じ条件なら同じ結果を再現できると意訳してもよい。

 

はてさて、一番根拠がないものとされる専門家個人の意見により重要な決定がなされることが世の中にはいくつもある。

最近話題になった、東京オリンピックのエンブレムは専門家による審査員が評価しての採用だった。

また、フィギュアスケートの芸術点が世間の感性と大きくズレていて、審査員が買収されているのではないかなどの疑惑がでてしまうのは、その評価に科学的根拠を求めることができないからであって、疑惑の否定も肯定もできない。大抵はただ裏暗いだけで終わる。

 

違法ではないが、一部不適切とされる範囲で暗黙的談合が生まれるのは大人の事情だ。

これをあらゆるものを清廉潔白に、全くダメなものとして排除せよという主張をするつもりは無いが、一線を踏み越えて悪どいものは遡って追求できる程度には、エビデンスベースドであるべきだと思う。

統計「で」嘘を付いたり、御用学者の意見でサンプルバイアスが掛かりつづければ、長期的な視点で評価したときに悪害の程度が深刻な結果になってしまうことがあるからだ。

 

ハインリッヒの法則(※1)に照らせば、「1つの重大事故の背後には29の軽微な事故があり、その背景には300の異常が存在する」というが、ヒヤリハットという些細なエビデンスが特定個人、専門家の意見により、ささいなこととして恣意的に無視され隠蔽されれば、次に我々が知ることができるのは重篤な事故がおきてからになる。

 

エビデンスに基づかない決定

船の設計責任は問われる仕組みがある。naval architectというそうだ。
建築物の構造についても問われる仕組みがある。耐震偽装が発覚したとか、瑕疵担保責任とかだ。
ただ、法律や政策の制度設計については設計責任がないそうだ。(※2
なぜそのような決定に至ったか科学的根拠に基いていなければ、責任の取りようも取らせようもない。

「だって権威がそう言ったんだもん」

子供のような言い訳をするだけで世間は納得しなくても、法的違法性は問われない。都合のいいことを代弁してくれる御用聞きを連れてくればいいだけだ。

法律はいまのところ厳格にはエビデンスベースドではないので論理言語で記述することができない。だから運用形態も判事という「権威」により法廷で解釈され罪刑が決定されているにすぎない。自分で吐き出した実行結果をエビデンスにするという、涙ぐましい判例主義、前例主義だ。

だから、環境変化が発生しても過去に吐き出されたエビデンスに自縄自縛される。エビデンスレベルとしては最低の価値しかないものを最上位に置き続けざるを得ない。

 

計量できない価値

論評や好評などは評価項目をいくつかにわけて、点数などで保存したりすることで評価される。

感性は完全合意がありえないので、多人数による合議では決定され得ないので、代表者が好評して決定するというものは合理性がある。

しかし、視覚情報や音像、映像、一連の動作の美しさを専門家が付けた点数で残しても、それだけでは情報が欠落していて、好評からの、元の制作物の再現性は不可能といっていい。

 

 

 

土地は貨幣で交換できるという法的価値が制定されている。

しかし、この法的価値以外にも、先祖伝来だの、利水がどうで農地としての価値がどうだののような否定形価値がある。それら個々個別の価値を勘案すると大変なので、法律としては十把一からげにまとめているのだ。取引される経済的価値から、実際に認知される価値にはズレがある。

 

 

はてさて、回りくどく書いてきた。

どんな問題提起をしたかったかというと、実は「人工知能が権威の代わりになる」という未来を想定したときに何が必要かということだ。エビデンスベースドな人工知能のほうが科学的根拠にもとづいているので、ありうる未来だと考える。

 

そんな将来、人が感じる、美しさやのような現在は計量できない価値は、やがて人工知能により計量可能なものになる。なるはずだ。人間には計量できなくても、人工知能は絵画をベクトルの集合として分解することが可能だし、環境センシングなどにより大量のデータをエビデンスとして、類型化して、認知することができるようになるからだ。

 

で、問題。

我々の社会において、評価指標に科学的妥当性(エビデンスなど)を持ち合わせていないまま決定がされている分野がまだ多々ある。人工知能に食わせる、教師データが恣意的にコントロールされれば、人工知能同士の暗黙的な談合や衝突がおこる。人間がやっている今の失敗がとても短いイテレーション(繰り返し)のなかで増幅されるのだ。

 

細かなエビデンスを積み上げるセンシング、コミット、ロールバックの仕組みを作らずに、今の仕組みのままAIをサーキットさせれば、サーキットブレーカーを持たせないままフラッシュ・クラッシュを待つようなものだ。次に気がつくときは、重大な事故が起きてからになるんじゃねぇかなと思う。それは嫌だねぇ。どうすべぇ?

 

参考

根拠に基づく医療
ja.wikipedia.org/wiki/%E6%A0%B9%E6%8B%A0%E3%81%AB%E5%9F%BA%E3%81%A5%E3%81%8F%E5%8C%BB%E7%99%82
※1) ハインリッヒの法則
ja.wikipedia.org/wiki/%E3%83%8F%E3%82%A4%E3%83%B3%E3%83%AA%E3%83%83%E3%83%92%E3%81%AE%E6%B3%95%E5%89%87
※2)東京大学 人文社会系研究科 教授 松本 三和夫
第十回報告会 福島原発事故の背景にある「構造災」を考える
todai.tv/contents-list/sessions/radiation-effects/10-03

 

原発事故から5年
農学生命科学研究科の復興支援プロジェクト HP
www.a.u-tokyo.ac.jp/rpjt/index.html

 

孫正義×堀義人 トコトン議論 日本のエネルギー政策を考える
GLOBIS知見録


人工知能の騙りにいつまで気がつけるだろうか


5年ぐらい前に海外の論文でツイッターのつぶやきを分析したら株価予測に成功したというのがあった。投資家が投資判断に用いる景気動向指数だって、消費者の気分を反映している指標があるのでさもありなんである。

景気動向指数のうち景気動向より先行するとされる、消費者態度指数(内閣府経済社会総合研究所、消費動向調査)や、中小企業売上げ見通しDI(中小企業景況調査)なんかは、「景気どうよ?」ってアンケートを積み上げたにすぎない。

 

2016-06-10 18_21_51-Cortana

www.jfc.go.jp/n/findings/tyousa_sihanki.html
www.esri.cao.go.jp/jp/stat/shouhi/chousahyou_sample2016.pdf

 

自分も日本語でもやってみようと、自分のフォロアーのつぶやきをDBにぶっこんで形態素解析に食わせて、感情解析API通したりなんだりして眺めてみたことがある。結果、感情解析エンジンのクオリティの問題か、自分のフォローしている人たちの問題か、投資に使えるほどまでに強そうな相関はみえなかった。
しかし、助詞(~が、~の、~を)の登場頻度がましたときは株価インデックスのボラティリティ(振幅)がでけぇなーと、グラフをみて漠然と感じた。ニュースや企業広報などが助詞をきちんとつかった比較的フォーマルなリツイートが増えるためかしらん?などと思ったもんだ。検証はまったくしてない。この程度のシグナルなら企業現在価値計算したりファンダメンタルからやったほうがよさそうだな、ってぐらいだし、自分は学者ではないので、ふーんって眺めて終わるのである。ま、景気動向指標を投資判断でどこまで重要視するのかいなっておはなし。

 

人工無能

さて、最近の人工知能はツイッターでつぶやくそうな。
マイクロソフトが提供している人工知能女子高生AI日本語版「りんな」や、英語圏で稼働してたらヒットラーを賛否して停止させられた「tay」、中国語圏で稼働している「小冰(Xiaoice)」、みな饒舌だ。
これらは人工知能というよりは人工無能。おっさんたちにはチャットで動いてたBotというと懐かしい。
チャットというより当時はIRCが主戦場で、今はslackに居座っているエージェントBotだろうか。人工無能には今更感があって90年代初頭のパソコン通信時代のOLT(On Line Talk)時代とかから人工無能はあった。
相手が人間ですらないという可能性に思いもよらず、機械相手にチャットしてその反応に怒ったり悲しんだりするものがいたほどだ。(当時のBotは泥酔したよっぱらい並)
チューリングテストは、人間の判定者が言語での会話を行い、相手が人間か機械かを判定するテストであるが、そもそもテストであるとも知らされていない状況下においては、かなりの確率で人間を騙せるのである。有料出合い系サイトで女性と会話しているつもりだったら人口無能だったなんてのはよくある話しだ。(逆にそうじゃないことがないんじゃね?)

そして、テストとわかっている状況下でも人間は機械と人間を区別できなくなった。

 

チューリングテスト
ja.wikipedia.org/wiki/%E3%83%81%E3%83%A5%E3%83%BC%E3%83%AA%E3%83%B3%E3%82%B0%E3%83%BB%E3%83%86%E3%82%B9%E3%83%88
2014年6月7日、ロンドンのテストに「13歳の少年」の設定で参加したロシアのスーパーコンピューターが、30%以上の確率で審査員らに人間と間違われて史上初めての「合格者」となった

 

文章解釈の精度

人工無能が会話を成立させるためには発言するだけじゃなく、相手が何を言ったかを解釈する必要がある。
こちらの精度もあがっている。
人工知能を東京大学に合格させようというプロジェクトで、2015年の「東ロボくん」の全国模試の偏差値は57.8だった。記憶力が人間とは比べ物にならないのだからあたりまえだろうと思うなかれ、「東ロボくん」は問題文という自然言語で書かれた問題の「文意」を読み取る力があることを意味している。(むしろそこがネック)

求められた問に正答を返せる能力が全国の受験生の上位25%相当に入るようになった。
なにが求められているのかが判断できるようになった。
つまり、そういうことだ。

 

長文作文

チャットのような短い文だけではなく、長文も書けるようになってきている。
星新一賞で星新一プロジェクトによりつくられたAIが作成した小説が一次審査を突破した。
いくつか作品を読んでみたが立派なものである。(オチの数列がわからないので誰かおしえて)

www.fun.ac.jp/~kimagure_ai/

 
英語圏では新聞やニュースサイトにおける、プロスポーツの結果や株式市場情報など、比較的定型文で書けるものについては既に自動作文によってなされるようになってきている。

さらには、読む読者の住所情報に応じて長文のAI作文がなされるまでになってきたそうだ。
business.newsln.jp/news/201511080445270000.html

 
すこし余談だが、「迷惑メール」があんなアホみたいな文章なのにはわけがあるそうな。本当はもっと巧妙な文章作成できるのだが、しかし、トンチンカンなタイトルや本文にすることで、「正常な判断をできる人間」をふるい落としている。
多くの人が騙されるようなメールを書いてしまうと、「まともな人」から問い合わが来てしまって、そこから通報されたり、嘘だと見抜かれ逮捕される可能性があがってしまうので、彼らの詐欺行為の障害になる。だから、程度の低いメールで騙されれる「間抜けな」な人を探すことに最適化された文章が作成されている。こんな馬鹿みたいな内容を羅列してなにがしたいんだと思うかもしれないが、馬鹿をさがしているのだからそれでいいのだ。なんとも恐ろしい。
逆に標的攻撃型やフィッシングはより巧妙に騙す方向に進化している。なんとも恐ろしい。

 

嘘をつくAI

1960年代ダートマス会議で人工知能についての話し合われた第一次人工知能ブームの時代にELIZA(イライザ)と呼ばれる人工無能が誕生した。iPhoneを持っている人はsiriに「イライザって誰ですか」聞いてみると、感慨深い答えが返ってくるはずだ。

現代になってELIZAの後輩たちは自然言語を聞き取り、文章を読み取り、そして、文章を書き出し、そして発話できるようになるまでに進化した。(ディクテーションや発話については、またこれだけで一大テーマなので別の回に書く)

 

人工知能が人間の意図にしたがって人間を騙るだけでなく、やがて自らの判断で嘘をつけるようになる時代がまもなくくるだろう。

 

囲碁で人間の最高峰に勝ったAIは次はポーカーに歩をすすめている。

ポーカーのなかでも「無制限テキサスホールデム」は掛け金を青天井にあげて相手にハッタリをかますこと、またそれを見抜くことが重要な競技だ。囲碁や将棋のような「二人零和有限確定完全情報ゲーム」から、不完全情報分野に踏み出す。ここでは嘘をつくことが重要になる。

 

汝は人工知能なりや?

 

人工知能の騙りに、人間が気がつけなくなる時代はまもなくだ。

 

参考

Googleは米国時間5月12日、「TensorFlow」で実装されたオープンソースの同社自然言語フレームワーク「SyntaxNet」をリリースした。
googleresearch.blogspot.jp/2016/05/announcing-syntaxnet-worlds-most.html
github.com/tensorflow/models/tree/master/syntaxnet
4.bp.blogspot.com/-1Ntx47T1WvU/VzTF2HgbqrI/AAAAAAAAA_w/UWofRQPhqU0ITD5HPQmEVCrwsEroCN8PQCLcB/s640/long.png
「東ロボくん」偏差値上昇57.8 東大目指す人工知能
山崎啓介2015年11月14日22時56分
全大学の6割にあたる474大学の1094学部で合格の可能性が80%以上と診断される「優等生」に成長した。
2014年の偏差値は47・3
2015年の偏差値は57・8
www.asahi.com/articles/ASHCG5F03HCGULBJ00D.html
囲碁でだめなら、お次はポーカーだ──人類に残された「AIとのゲーム」
wired.jp/2016/03/21/texas-holdem/
人狼知能プロジェクト
aiwolf.org/


人工知能と暗黙知としての符丁


「ずいずいずっころばし」と問いかけて「ごまみそずい」と応えられる人間をつくるのに必要なのは、辞書を読みこませることではなく文化背景を含んだ共通体験だ。山と言えば川というような符丁は、古来から言葉だけは通じる間諜、スパイを見分けるのにも使われてきた。

符丁(仲間内でのみ通用する言葉)がなりたつためには、暗黙的に共有している経験や体験が必要となる。
これら経験なしに、教育によってのみ解決しようとすると膨大な学習量が必要になるしそこからおきる偏りを排除できない。

 

「節子」といえば「それ○○やない」と応えられるのは、一部の人たちだし、「どれにしようかな♪」と歌えば、地域によって続く言葉が違う。このように教師となる正解情報がない符丁もある。だから正解を予め定めておくことができない。

いままでの人工知能は、「ずいずいずっころばし」という設問がきたら「ごまみそずい」と答えなさいという正解を教えるような教育をおこなってきた。いわゆるエキスパートシステムだ。だから「茶壺に追われたら?」とすこし設問の状態を変えただけで応じられなかった。
1984年に開始されたCycプロジェクト(サイク)などはまさにその現れで、一般知識をwikipediaのようにデータベース化しつづけている。これはまさに、虎や象もみたことがない伊藤若冲やら江戸時代の絵師に口伝情報だけで虎の絵を描かせるようなもので、描きあがった絵は実物とはかなりかけ離れたものになる。平安時代などの仏師が彫った騎象像(菩薩などが乗った象)の象には蹴爪が生えている。

視覚情報を形容可能な言語情報に落とし、そこからさらに視覚情報に復元しようとすればどうしても必要な情報が欠落し劣化してしまう。言語情報いくら情報を足しても視覚情報を補完しきることはない。

 

すべての事象を言語記述で定義しつづけることに無理があるという事に気がついて、画像などをデータを食わせてそこから特徴を抽出して、そこからでた特徴を言語に結びつけた。コンピューターの演算速度があがったことによって可能になった手法ではあるが、これが今回の人工知能第3のブームの根底にある。

 

抽象化にたどり着いた

で、これはコンピューターがとうとう抽象化にたどり着いたと言い換えることができると思う。ピカソなどが抽象画家と呼ばれるせいで、日本語での「抽象」が「曖昧模糊」なものと認識されている節があるが、ここでいう抽象化はそのものの特徴を抽出したエッセンスと考えて欲しい。猫の画像や動画を見せて、猫の特徴(エッセンス)を説明できるようになったのが今回の深層学習などの到達点だと説明できるのではないだろうか。

 

いままでは猫を見せることなしにひたすら情報だけで猫を説明し続けてきた。

だから、どれだけ教えても、教えられた猫と現実の猫との乖離、齟齬が生じてしまい、教育がいつまで経っても終わらなかった。まるで日本でなされる英語教育のようだね・・・。いくらやっても終わらないし、ちょっと英語圏の片田舎にいっただけでまるで通じなくなるような英語を教えこまれる。言語は意思疎通ができるかが機能要件で、本来は正解などないのに。

 

 

翻訳とビッグデータ解析

翻訳にも深層学習が活躍しだしている。いままでは、日本語と英語を翻訳するときは、辞書に定義されている対訳をもとにおこなわれていた。よくって慣用句レベルの対訳だ。最近のアルゴリズムは語の出現頻度の相関によって文意そのものを訳すように変化しつつあるそうだ。

 

日本語に「肩こり」という単語がある。

外国の人には「肩こり」という単語や概念がないという日本で笑い話になっているが、これも医者にいわせればあたりまえの事だそうだ。そもそも「肩こり」たる、「肩」は厳密に定義すると肩甲骨帯(肩甲骨から首より)が凝るもので、英語の肩は三角筋(いわゆる肩パットの位置の筋肉)の範囲しか定義しない。

 

2016-06-10 15_59_56-2-1. 国民の病気ベスト2+1、肩こりのトリビア _ 講義(1~5) _ 講座番号「ga066」を学習する _ gacco
英語でそこは「首の付け根」というそうだ。だから「肩こり」は「neck pain」と表現される。

ちなみに、肩甲骨帯を肩と呼びはじめ、肩こりという言葉がではじめたのは二葉亭四迷、夏目漱石以降この100年だそうだ。これをいままで通り辞書に乗っけるなら、「肩こり」は「neck pain」ですよと教えこむのだろう。だが、肩こりについて書かれる文章にneck painが同程度出てくるなと文意がわかれば、教えなくてもそれらを結びつけて考えることができるようになる。

 

これは大切なことで、1から10まで教えていないとできない融通のきかん馬鹿者をつくるか、教えていないことにも応えられるようになるかの違いがある。これができるようになれば、日本語での言い換えや、類語(ソーシラス)情報も溜まってくる。

一般に小説家が使う語囊数は、生涯にある程度の上限があり、センテンス中に出現する単語の選択などにも特徴があると青空文庫をメカブって形態素解析かけてた子が教えてくれた。

 

日本語(NHKのニュース風)→日本語(科学論文風)→日本語(太宰治風)→日本語(夏目漱石風)→日本語(万葉集風)

 

時代と研究がすすめば、こんな風な言い回しができる柔軟な人工知能ができるかもしれないね。

 

 

参考

符牒
ja.wikipedia.org/wiki/%E7%AC%A6%E7%89%92

 

「どれにしようかな おてんと様の言う通り 鉄砲撃ってばんばんばん もひとつおまけにばんばんばん」
ja.wikipedia.org/wiki/%E3%81%A9%E3%81%A1%E3%82%89%E3%81%AB%E3%81%97%E3%82%88%E3%81%86%E3%81%8B%E3%81%AA

 

ga066: 人体ソムリエへの道
lms.gacco.org/courses/course-v1:gacco+ga066+2016_06/about