人工知能の騙りにいつまで気がつけるだろうか


5年ぐらい前に海外の論文でツイッターのつぶやきを分析したら株価予測に成功したというのがあった。投資家が投資判断に用いる景気動向指数だって、消費者の気分を反映している指標があるのでさもありなんである。

景気動向指数のうち景気動向より先行するとされる、消費者態度指数(内閣府経済社会総合研究所、消費動向調査)や、中小企業売上げ見通しDI(中小企業景況調査)なんかは、「景気どうよ?」ってアンケートを積み上げたにすぎない。

 

2016-06-10 18_21_51-Cortana

www.jfc.go.jp/n/findings/tyousa_sihanki.html

クリックしてchousahyou_sample2016.pdfにアクセス

 

自分も日本語でもやってみようと、自分のフォロアーのつぶやきをDBにぶっこんで形態素解析に食わせて、感情解析API通したりなんだりして眺めてみたことがある。結果、感情解析エンジンのクオリティの問題か、自分のフォローしている人たちの問題か、投資に使えるほどまでに強そうな相関はみえなかった。
しかし、助詞(~が、~の、~を)の登場頻度がましたときは株価インデックスのボラティリティ(振幅)がでけぇなーと、グラフをみて漠然と感じた。ニュースや企業広報などが助詞をきちんとつかった比較的フォーマルなリツイートが増えるためかしらん?などと思ったもんだ。検証はまったくしてない。この程度のシグナルなら企業現在価値計算したりファンダメンタルからやったほうがよさそうだな、ってぐらいだし、自分は学者ではないので、ふーんって眺めて終わるのである。ま、景気動向指標を投資判断でどこまで重要視するのかいなっておはなし。

 

人工無能

さて、最近の人工知能はツイッターでつぶやくそうな。
マイクロソフトが提供している人工知能女子高生AI日本語版「りんな」や、英語圏で稼働してたらヒットラーを賛否して停止させられた「tay」、中国語圏で稼働している「小冰(Xiaoice)」、みな饒舌だ。
これらは人工知能というよりは人工無能。おっさんたちにはチャットで動いてたBotというと懐かしい。
チャットというより当時はIRCが主戦場で、今はslackに居座っているエージェントBotだろうか。人工無能には今更感があって90年代初頭のパソコン通信時代のOLT(On Line Talk)時代とかから人工無能はあった。
相手が人間ですらないという可能性に思いもよらず、機械相手にチャットしてその反応に怒ったり悲しんだりするものがいたほどだ。(当時のBotは泥酔したよっぱらい並)
チューリングテストは、人間の判定者が言語での会話を行い、相手が人間か機械かを判定するテストであるが、そもそもテストであるとも知らされていない状況下においては、かなりの確率で人間を騙せるのである。有料出合い系サイトで女性と会話しているつもりだったら人口無能だったなんてのはよくある話しだ。(逆にそうじゃないことがないんじゃね?)

そして、テストとわかっている状況下でも人間は機械と人間を区別できなくなった。

 

チューリングテスト
ja.wikipedia.org/wiki/%E3%83%81%E3%83%A5%E3%83%BC%E3%83%AA%E3%83%B3%E3%82%B0%E3%83%BB%E3%83%86%E3%82%B9%E3%83%88
2014年6月7日、ロンドンのテストに「13歳の少年」の設定で参加したロシアのスーパーコンピューターが、30%以上の確率で審査員らに人間と間違われて史上初めての「合格者」となった

 

文章解釈の精度

人工無能が会話を成立させるためには発言するだけじゃなく、相手が何を言ったかを解釈する必要がある。
こちらの精度もあがっている。
人工知能を東京大学に合格させようというプロジェクトで、2015年の「東ロボくん」の全国模試の偏差値は57.8だった。記憶力が人間とは比べ物にならないのだからあたりまえだろうと思うなかれ、「東ロボくん」は問題文という自然言語で書かれた問題の「文意」を読み取る力があることを意味している。(むしろそこがネック)

求められた問に正答を返せる能力が全国の受験生の上位25%相当に入るようになった。
なにが求められているのかが判断できるようになった。
つまり、そういうことだ。

 

長文作文

チャットのような短い文だけではなく、長文も書けるようになってきている。
星新一賞で星新一プロジェクトによりつくられたAIが作成した小説が一次審査を突破した。
いくつか作品を読んでみたが立派なものである。(オチの数列がわからないので誰かおしえて)

www.fun.ac.jp/~kimagure_ai/

 
英語圏では新聞やニュースサイトにおける、プロスポーツの結果や株式市場情報など、比較的定型文で書けるものについては既に自動作文によってなされるようになってきている。

さらには、読む読者の住所情報に応じて長文のAI作文がなされるまでになってきたそうだ。
business.newsln.jp/news/201511080445270000.html

 
すこし余談だが、「迷惑メール」があんなアホみたいな文章なのにはわけがあるそうな。本当はもっと巧妙な文章作成できるのだが、しかし、トンチンカンなタイトルや本文にすることで、「正常な判断をできる人間」をふるい落としている。
多くの人が騙されるようなメールを書いてしまうと、「まともな人」から問い合わが来てしまって、そこから通報されたり、嘘だと見抜かれ逮捕される可能性があがってしまうので、彼らの詐欺行為の障害になる。だから、程度の低いメールで騙されれる「間抜けな」な人を探すことに最適化された文章が作成されている。こんな馬鹿みたいな内容を羅列してなにがしたいんだと思うかもしれないが、馬鹿をさがしているのだからそれでいいのだ。なんとも恐ろしい。
逆に標的攻撃型やフィッシングはより巧妙に騙す方向に進化している。なんとも恐ろしい。

 

嘘をつくAI

1960年代ダートマス会議で人工知能についての話し合われた第一次人工知能ブームの時代にELIZA(イライザ)と呼ばれる人工無能が誕生した。iPhoneを持っている人はsiriに「イライザって誰ですか」聞いてみると、感慨深い答えが返ってくるはずだ。

現代になってELIZAの後輩たちは自然言語を聞き取り、文章を読み取り、そして、文章を書き出し、そして発話できるようになるまでに進化した。(ディクテーションや発話については、またこれだけで一大テーマなので別の回に書く)

 

人工知能が人間の意図にしたがって人間を騙るだけでなく、やがて自らの判断で嘘をつけるようになる時代がまもなくくるだろう。

 

囲碁で人間の最高峰に勝ったAIは次はポーカーに歩をすすめている。

ポーカーのなかでも「無制限テキサスホールデム」は掛け金を青天井にあげて相手にハッタリをかますこと、またそれを見抜くことが重要な競技だ。囲碁や将棋のような「二人零和有限確定完全情報ゲーム」から、不完全情報分野に踏み出す。ここでは嘘をつくことが重要になる。

 

汝は人工知能なりや?

 

人工知能の騙りに、人間が気がつけなくなる時代はまもなくだ。

 

参考

Googleは米国時間5月12日、「TensorFlow」で実装されたオープンソースの同社自然言語フレームワーク「SyntaxNet」をリリースした。
googleresearch.blogspot.jp/2016/05/announcing-syntaxnet-worlds-most.html
github.com/tensorflow/models/tree/master/syntaxnet
4.bp.blogspot.com/-1Ntx47T1WvU/VzTF2HgbqrI/AAAAAAAAA_w/UWofRQPhqU0ITD5HPQmEVCrwsEroCN8PQCLcB/s640/long.png
「東ロボくん」偏差値上昇57.8 東大目指す人工知能
山崎啓介2015年11月14日22時56分
全大学の6割にあたる474大学の1094学部で合格の可能性が80%以上と診断される「優等生」に成長した。
2014年の偏差値は47・3
2015年の偏差値は57・8
www.asahi.com/articles/ASHCG5F03HCGULBJ00D.html
囲碁でだめなら、お次はポーカーだ──人類に残された「AIとのゲーム」
wired.jp/2016/03/21/texas-holdem/
人狼知能プロジェクト
aiwolf.org/


人工知能と暗黙知としての符丁


「ずいずいずっころばし」と問いかけて「ごまみそずい」と応えられる人間をつくるのに必要なのは、辞書を読みこませることではなく文化背景を含んだ共通体験だ。山と言えば川というような符丁は、古来から言葉だけは通じる間諜、スパイを見分けるのにも使われてきた。

符丁(仲間内でのみ通用する言葉)がなりたつためには、暗黙的に共有している経験や体験が必要となる。
これら経験なしに、教育によってのみ解決しようとすると膨大な学習量が必要になるしそこからおきる偏りを排除できない。

 

「節子」といえば「それ○○やない」と応えられるのは、一部の人たちだし、「どれにしようかな♪」と歌えば、地域によって続く言葉が違う。このように教師となる正解情報がない符丁もある。だから正解を予め定めておくことができない。

いままでの人工知能は、「ずいずいずっころばし」という設問がきたら「ごまみそずい」と答えなさいという正解を教えるような教育をおこなってきた。いわゆるエキスパートシステムだ。だから「茶壺に追われたら?」とすこし設問の状態を変えただけで応じられなかった。
1984年に開始されたCycプロジェクト(サイク)などはまさにその現れで、一般知識をwikipediaのようにデータベース化しつづけている。これはまさに、虎や象もみたことがない伊藤若冲やら江戸時代の絵師に口伝情報だけで虎の絵を描かせるようなもので、描きあがった絵は実物とはかなりかけ離れたものになる。平安時代などの仏師が彫った騎象像(菩薩などが乗った象)の象には蹴爪が生えている。

視覚情報を形容可能な言語情報に落とし、そこからさらに視覚情報に復元しようとすればどうしても必要な情報が欠落し劣化してしまう。言語情報いくら情報を足しても視覚情報を補完しきることはない。

 

すべての事象を言語記述で定義しつづけることに無理があるという事に気がついて、画像などをデータを食わせてそこから特徴を抽出して、そこからでた特徴を言語に結びつけた。コンピューターの演算速度があがったことによって可能になった手法ではあるが、これが今回の人工知能第3のブームの根底にある。

 

抽象化にたどり着いた

で、これはコンピューターがとうとう抽象化にたどり着いたと言い換えることができると思う。ピカソなどが抽象画家と呼ばれるせいで、日本語での「抽象」が「曖昧模糊」なものと認識されている節があるが、ここでいう抽象化はそのものの特徴を抽出したエッセンスと考えて欲しい。猫の画像や動画を見せて、猫の特徴(エッセンス)を説明できるようになったのが今回の深層学習などの到達点だと説明できるのではないだろうか。

 

いままでは猫を見せることなしにひたすら情報だけで猫を説明し続けてきた。

だから、どれだけ教えても、教えられた猫と現実の猫との乖離、齟齬が生じてしまい、教育がいつまで経っても終わらなかった。まるで日本でなされる英語教育のようだね・・・。いくらやっても終わらないし、ちょっと英語圏の片田舎にいっただけでまるで通じなくなるような英語を教えこまれる。言語は意思疎通ができるかが機能要件で、本来は正解などないのに。

 

 

翻訳とビッグデータ解析

翻訳にも深層学習が活躍しだしている。いままでは、日本語と英語を翻訳するときは、辞書に定義されている対訳をもとにおこなわれていた。よくって慣用句レベルの対訳だ。最近のアルゴリズムは語の出現頻度の相関によって文意そのものを訳すように変化しつつあるそうだ。

 

日本語に「肩こり」という単語がある。

外国の人には「肩こり」という単語や概念がないという日本で笑い話になっているが、これも医者にいわせればあたりまえの事だそうだ。そもそも「肩こり」たる、「肩」は厳密に定義すると肩甲骨帯(肩甲骨から首より)が凝るもので、英語の肩は三角筋(いわゆる肩パットの位置の筋肉)の範囲しか定義しない。

 

2016-06-10 15_59_56-2-1. 国民の病気ベスト2+1、肩こりのトリビア _ 講義(1~5) _ 講座番号「ga066」を学習する _ gacco
英語でそこは「首の付け根」というそうだ。だから「肩こり」は「neck pain」と表現される。

ちなみに、肩甲骨帯を肩と呼びはじめ、肩こりという言葉がではじめたのは二葉亭四迷、夏目漱石以降この100年だそうだ。これをいままで通り辞書に乗っけるなら、「肩こり」は「neck pain」ですよと教えこむのだろう。だが、肩こりについて書かれる文章にneck painが同程度出てくるなと文意がわかれば、教えなくてもそれらを結びつけて考えることができるようになる。

 

これは大切なことで、1から10まで教えていないとできない融通のきかん馬鹿者をつくるか、教えていないことにも応えられるようになるかの違いがある。これができるようになれば、日本語での言い換えや、類語(ソーシラス)情報も溜まってくる。

一般に小説家が使う語囊数は、生涯にある程度の上限があり、センテンス中に出現する単語の選択などにも特徴があると青空文庫をメカブって形態素解析かけてた子が教えてくれた。

 

日本語(NHKのニュース風)→日本語(科学論文風)→日本語(太宰治風)→日本語(夏目漱石風)→日本語(万葉集風)

 

時代と研究がすすめば、こんな風な言い回しができる柔軟な人工知能ができるかもしれないね。

 

 

参考

符牒
ja.wikipedia.org/wiki/%E7%AC%A6%E7%89%92

 

「どれにしようかな おてんと様の言う通り 鉄砲撃ってばんばんばん もひとつおまけにばんばんばん」
ja.wikipedia.org/wiki/%E3%81%A9%E3%81%A1%E3%82%89%E3%81%AB%E3%81%97%E3%82%88%E3%81%86%E3%81%8B%E3%81%AA

 

ga066: 人体ソムリエへの道
lms.gacco.org/courses/course-v1:gacco+ga066+2016_06/about


17歳が不正プログラムをつくったとして逮捕された


佐賀市の無職の少年(17)が有料デジタル放送をB-CASカードなしで見れるプログラムを公開したとして不正競争防止法違反容疑で逮捕された。不正アクセス禁止法案とか著作権上の複製権や公衆送信権の侵害あたりをやらかしたのかと思ってニュースを読んだら、不正競争防止法違反らしい。

 
テレビまわりほとんど興味がないのでB-CASカードとかがよくわからないのだけど、B-CASカードそのものが電波法が定める「公平で効率的な電波帯域の利用」という公益性に反してんじゃねぇかな。不正競争防止法違反というか、独占禁止法こそ仕事しろ案件。

 

イノベーションには2つの方向がある。
「なぜなぜ」を突き詰めて深掘りしていく下位概念。
「そもそも」をたどる上位概念。

 
<テレビを見るのに「B-CASカード」が必要なのは不便だ> という課題を、17歳の子は上位概念で辿って、そもそもなぜ「B-CASカード」が必要なのだろうか?から解決した。解決してしまった。破壊的イノベーションを実行したわけだ。破壊的イノベーションは破壊される側にいる人たち(だいたいが既に利権者側なので、地位と権力がある)はそれを嫌がる。

 

 

実にもったいない。

 
この才能をこちらにしかのばせなかった環境も、彼自身も、それを逮捕という形でしか終わらせられなかった公権力側も。そして、恐らく逮捕されて有罪になった後は、粗暴犯やらと同じ更生プログラムに入って再教育がされるのだろうが、これも実にもったいない未来である。

 

つくりあげたものは褒められたものではなかったかもしれないが、彼は技術的課題をハックして、しかもそれを公衆に提供した利他的な振る舞いができる子なわけだ。それが単純な承認欲求からくるものだとしても、彼は問題解決にまで至っている。ここにまで到れる人というのはやはり希少だ。その才をこんな無駄な課題(人間が人間のためにつくったただの障害)に費やされたことも、いろいろもったいない。

 

もっと情熱を向けられる別の課題はなかったものなのか。更生プログラムを選べるなら、彼には多くのなんらかの課題を抱えてる人たちに触れさせるボランティア罰がよいように思う。(日本にそのような制度はないが・・・。)そのほうが未来のためになる。

 

 捜査関係者は「ネット上で入手できる不正プログラムは、売買される不正カードに比べて拡散の可能性が高く、無料視聴が横行する恐れがある」と警戒している。

電波利権は利権の中でも強烈に強い利権なので、禁忌に触れちゃった感じか。
このコメントから察するに、サーバー問い合わせのないただのデジットである可能性が高い。高校生程度の子が公開されている仕様から辿れるレベルの。無駄で、無意味な障壁でしかないように思う。ハリボテを暴いてしまった子供を掴まえて「不正競争防止法違反だ!」と喚くのは実に大人気ない。「よく捕まえた!」とその仕事ぶり評価する人は現代では確実に居るだろうが、その評価が30年後まで不変であるとは思ってはいけない。

 

スティーブ・ジョブズは電話をタダで掛けられるハックツールでビジネスをスタートした。ビル・ゲイツやその他多くの名だたる経営者だって相当やらかしている。それを見出して導く環境があればこその今だ。

 

もったいな、とただ嘆息するのみである。

 

 

<不正プログラム>TV無料視聴をネット公開、少年逮捕
毎日新聞 6月8日(水)11時40分配信
headlines.yahoo.co.jp/hl?a=20160608-00000036-mai-soci

佐賀市の無職の少年(17)を不正競争防止法違反容疑で逮捕

「B-CASカード」がなくても有料デジタル放送が無料で視聴できるプログラムを独自に開発し、自身のホームページ上に無料で公開して不特定多数の人が閲覧、入手できる状態にした

「ワークキー」と呼ばれる暗号をパソコンに入力することで放送を視聴できるようになる

逮捕前の任意の調べには「カードが邪魔だった。無料視聴したかった」と容疑を認めていたという。

 

B-CAS使わず有料テレビ計70chを無料視聴 ネットで「不正プログラム」公開 17歳無職少年逮捕 警視庁
www.sankei.com/affairs/news/160608/afr1606080009-n1.html
不正視聴プログラムを公開=全国初、容疑で少年逮捕-警視庁など
www.jiji.com/jc/article?k=2016060800233&g=soc

カード使わず、新たな手口 無料視聴プログラム公開容疑
www.asahi.com/articles/ASJ68319LJ68UTIL004.html