カテゴリー: 人工知能

  • 人工知能の騙りにいつまで気がつけるだろうか

    5年ぐらい前に海外の論文でツイッターのつぶやきを分析したら株価予測に成功したというのがあった。投資家が投資判断に用いる景気動向指数だって、消費者の気分を反映している指標があるのでさもありなんである。

    景気動向指数のうち景気動向より先行するとされる、消費者態度指数(内閣府経済社会総合研究所、消費動向調査)や、中小企業売上げ見通しDI(中小企業景況調査)なんかは、「景気どうよ?」ってアンケートを積み上げたにすぎない。

     

    2016-06-10 18_21_51-Cortana

    https://www.jfc.go.jp/n/findings/tyousa_sihanki.html
    http://www.esri.cao.go.jp/jp/stat/shouhi/chousahyou_sample2016.pdf

     

    自分も日本語でもやってみようと、自分のフォロアーのつぶやきをDBにぶっこんで形態素解析に食わせて、感情解析API通したりなんだりして眺めてみたことがある。結果、感情解析エンジンのクオリティの問題か、自分のフォローしている人たちの問題か、投資に使えるほどまでに強そうな相関はみえなかった。
    しかし、助詞(~が、~の、~を)の登場頻度がましたときは株価インデックスのボラティリティ(振幅)がでけぇなーと、グラフをみて漠然と感じた。ニュースや企業広報などが助詞をきちんとつかった比較的フォーマルなリツイートが増えるためかしらん?などと思ったもんだ。検証はまったくしてない。この程度のシグナルなら企業現在価値計算したりファンダメンタルからやったほうがよさそうだな、ってぐらいだし、自分は学者ではないので、ふーんって眺めて終わるのである。ま、景気動向指標を投資判断でどこまで重要視するのかいなっておはなし。

     

    人工無能

    さて、最近の人工知能はツイッターでつぶやくそうな。
    マイクロソフトが提供している人工知能女子高生AI日本語版「りんな」や、英語圏で稼働してたらヒットラーを賛否して停止させられた「tay」、中国語圏で稼働している「小冰(Xiaoice)」、みな饒舌だ。
    これらは人工知能というよりは人工無能。おっさんたちにはチャットで動いてたBotというと懐かしい。
    チャットというより当時はIRCが主戦場で、今はslackに居座っているエージェントBotだろうか。人工無能には今更感があって90年代初頭のパソコン通信時代のOLT(On Line Talk)時代とかから人工無能はあった。
    相手が人間ですらないという可能性に思いもよらず、機械相手にチャットしてその反応に怒ったり悲しんだりするものがいたほどだ。(当時のBotは泥酔したよっぱらい並)
    チューリングテストは、人間の判定者が言語での会話を行い、相手が人間か機械かを判定するテストであるが、そもそもテストであるとも知らされていない状況下においては、かなりの確率で人間を騙せるのである。有料出合い系サイトで女性と会話しているつもりだったら人口無能だったなんてのはよくある話しだ。(逆にそうじゃないことがないんじゃね?)

    そして、テストとわかっている状況下でも人間は機械と人間を区別できなくなった。

     

    チューリングテスト
    https://ja.wikipedia.org/wiki/%E3%83%81%E3%83%A5%E3%83%BC%E3%83%AA%E3%83%B3%E3%82%B0%E3%83%BB%E3%83%86%E3%82%B9%E3%83%88
    2014年6月7日、ロンドンのテストに「13歳の少年」の設定で参加したロシアのスーパーコンピューターが、30%以上の確率で審査員らに人間と間違われて史上初めての「合格者」となった

     

    文章解釈の精度

    人工無能が会話を成立させるためには発言するだけじゃなく、相手が何を言ったかを解釈する必要がある。
    こちらの精度もあがっている。
    人工知能を東京大学に合格させようというプロジェクトで、2015年の「東ロボくん」の全国模試の偏差値は57.8だった。記憶力が人間とは比べ物にならないのだからあたりまえだろうと思うなかれ、「東ロボくん」は問題文という自然言語で書かれた問題の「文意」を読み取る力があることを意味している。(むしろそこがネック)

    求められた問に正答を返せる能力が全国の受験生の上位25%相当に入るようになった。
    なにが求められているのかが判断できるようになった。
    つまり、そういうことだ。

     

    長文作文

    チャットのような短い文だけではなく、長文も書けるようになってきている。
    星新一賞で星新一プロジェクトによりつくられたAIが作成した小説が一次審査を突破した。
    いくつか作品を読んでみたが立派なものである。(オチの数列がわからないので誰かおしえて)

    http://www.fun.ac.jp/~kimagure_ai/

     
    英語圏では新聞やニュースサイトにおける、プロスポーツの結果や株式市場情報など、比較的定型文で書けるものについては既に自動作文によってなされるようになってきている。

    さらには、読む読者の住所情報に応じて長文のAI作文がなされるまでになってきたそうだ。
    http://business.newsln.jp/news/201511080445270000.html

     
    すこし余談だが、「迷惑メール」があんなアホみたいな文章なのにはわけがあるそうな。本当はもっと巧妙な文章作成できるのだが、しかし、トンチンカンなタイトルや本文にすることで、「正常な判断をできる人間」をふるい落としている。
    多くの人が騙されるようなメールを書いてしまうと、「まともな人」から問い合わが来てしまって、そこから通報されたり、嘘だと見抜かれ逮捕される可能性があがってしまうので、彼らの詐欺行為の障害になる。だから、程度の低いメールで騙されれる「間抜けな」な人を探すことに最適化された文章が作成されている。こんな馬鹿みたいな内容を羅列してなにがしたいんだと思うかもしれないが、馬鹿をさがしているのだからそれでいいのだ。なんとも恐ろしい。
    逆に標的攻撃型やフィッシングはより巧妙に騙す方向に進化している。なんとも恐ろしい。

     

    嘘をつくAI

    1960年代ダートマス会議で人工知能についての話し合われた第一次人工知能ブームの時代にELIZA(イライザ)と呼ばれる人工無能が誕生した。iPhoneを持っている人はsiriに「イライザって誰ですか」聞いてみると、感慨深い答えが返ってくるはずだ。

    現代になってELIZAの後輩たちは自然言語を聞き取り、文章を読み取り、そして、文章を書き出し、そして発話できるようになるまでに進化した。(ディクテーションや発話については、またこれだけで一大テーマなので別の回に書く)

     

    人工知能が人間の意図にしたがって人間を騙るだけでなく、やがて自らの判断で嘘をつけるようになる時代がまもなくくるだろう。

     

    囲碁で人間の最高峰に勝ったAIは次はポーカーに歩をすすめている。

    ポーカーのなかでも「無制限テキサスホールデム」は掛け金を青天井にあげて相手にハッタリをかますこと、またそれを見抜くことが重要な競技だ。囲碁や将棋のような「二人零和有限確定完全情報ゲーム」から、不完全情報分野に踏み出す。ここでは嘘をつくことが重要になる。

     

    汝は人工知能なりや?

     

    人工知能の騙りに、人間が気がつけなくなる時代はまもなくだ。

     

    参考

    Googleは米国時間5月12日、「TensorFlow」で実装されたオープンソースの同社自然言語フレームワーク「SyntaxNet」をリリースした。
    http://googleresearch.blogspot.jp/2016/05/announcing-syntaxnet-worlds-most.html
    https://github.com/tensorflow/models/tree/master/syntaxnet
    https://4.bp.blogspot.com/-1Ntx47T1WvU/VzTF2HgbqrI/AAAAAAAAA_w/UWofRQPhqU0ITD5HPQmEVCrwsEroCN8PQCLcB/s640/long.png
    「東ロボくん」偏差値上昇57.8 東大目指す人工知能
    山崎啓介2015年11月14日22時56分
    全大学の6割にあたる474大学の1094学部で合格の可能性が80%以上と診断される「優等生」に成長した。
    2014年の偏差値は47・3
    2015年の偏差値は57・8
    http://www.asahi.com/articles/ASHCG5F03HCGULBJ00D.html
    囲碁でだめなら、お次はポーカーだ──人類に残された「AIとのゲーム」
    http://wired.jp/2016/03/21/texas-holdem/
    人狼知能プロジェクト
    http://aiwolf.org/

  • 人工知能と暗黙知としての符丁

    「ずいずいずっころばし」と問いかけて「ごまみそずい」と応えられる人間をつくるのに必要なのは、辞書を読みこませることではなく文化背景を含んだ共通体験だ。山と言えば川というような符丁は、古来から言葉だけは通じる間諜、スパイを見分けるのにも使われてきた。

    符丁(仲間内でのみ通用する言葉)がなりたつためには、暗黙的に共有している経験や体験が必要となる。
    これら経験なしに、教育によってのみ解決しようとすると膨大な学習量が必要になるしそこからおきる偏りを排除できない。

     

    「節子」といえば「それ○○やない」と応えられるのは、一部の人たちだし、「どれにしようかな♪」と歌えば、地域によって続く言葉が違う。このように教師となる正解情報がない符丁もある。だから正解を予め定めておくことができない。

    いままでの人工知能は、「ずいずいずっころばし」という設問がきたら「ごまみそずい」と答えなさいという正解を教えるような教育をおこなってきた。いわゆるエキスパートシステムだ。だから「茶壺に追われたら?」とすこし設問の状態を変えただけで応じられなかった。
    1984年に開始されたCycプロジェクト(サイク)などはまさにその現れで、一般知識をwikipediaのようにデータベース化しつづけている。これはまさに、虎や象もみたことがない伊藤若冲やら江戸時代の絵師に口伝情報だけで虎の絵を描かせるようなもので、描きあがった絵は実物とはかなりかけ離れたものになる。平安時代などの仏師が彫った騎象像(菩薩などが乗った象)の象には蹴爪が生えている。

    視覚情報を形容可能な言語情報に落とし、そこからさらに視覚情報に復元しようとすればどうしても必要な情報が欠落し劣化してしまう。言語情報いくら情報を足しても視覚情報を補完しきることはない。

     

    すべての事象を言語記述で定義しつづけることに無理があるという事に気がついて、画像などをデータを食わせてそこから特徴を抽出して、そこからでた特徴を言語に結びつけた。コンピューターの演算速度があがったことによって可能になった手法ではあるが、これが今回の人工知能第3のブームの根底にある。

     

    抽象化にたどり着いた

    で、これはコンピューターがとうとう抽象化にたどり着いたと言い換えることができると思う。ピカソなどが抽象画家と呼ばれるせいで、日本語での「抽象」が「曖昧模糊」なものと認識されている節があるが、ここでいう抽象化はそのものの特徴を抽出したエッセンスと考えて欲しい。猫の画像や動画を見せて、猫の特徴(エッセンス)を説明できるようになったのが今回の深層学習などの到達点だと説明できるのではないだろうか。

     

    いままでは猫を見せることなしにひたすら情報だけで猫を説明し続けてきた。

    だから、どれだけ教えても、教えられた猫と現実の猫との乖離、齟齬が生じてしまい、教育がいつまで経っても終わらなかった。まるで日本でなされる英語教育のようだね・・・。いくらやっても終わらないし、ちょっと英語圏の片田舎にいっただけでまるで通じなくなるような英語を教えこまれる。言語は意思疎通ができるかが機能要件で、本来は正解などないのに。

     

     

    翻訳とビッグデータ解析

    翻訳にも深層学習が活躍しだしている。いままでは、日本語と英語を翻訳するときは、辞書に定義されている対訳をもとにおこなわれていた。よくって慣用句レベルの対訳だ。最近のアルゴリズムは語の出現頻度の相関によって文意そのものを訳すように変化しつつあるそうだ。

     

    日本語に「肩こり」という単語がある。

    外国の人には「肩こり」という単語や概念がないという日本で笑い話になっているが、これも医者にいわせればあたりまえの事だそうだ。そもそも「肩こり」たる、「肩」は厳密に定義すると肩甲骨帯(肩甲骨から首より)が凝るもので、英語の肩は三角筋(いわゆる肩パットの位置の筋肉)の範囲しか定義しない。

     

    2016-06-10 15_59_56-2-1. 国民の病気ベスト2+1、肩こりのトリビア _ 講義(1~5) _ 講座番号「ga066」を学習する _ gacco
    英語でそこは「首の付け根」というそうだ。だから「肩こり」は「neck pain」と表現される。

    ちなみに、肩甲骨帯を肩と呼びはじめ、肩こりという言葉がではじめたのは二葉亭四迷、夏目漱石以降この100年だそうだ。これをいままで通り辞書に乗っけるなら、「肩こり」は「neck pain」ですよと教えこむのだろう。だが、肩こりについて書かれる文章にneck painが同程度出てくるなと文意がわかれば、教えなくてもそれらを結びつけて考えることができるようになる。

     

    これは大切なことで、1から10まで教えていないとできない融通のきかん馬鹿者をつくるか、教えていないことにも応えられるようになるかの違いがある。これができるようになれば、日本語での言い換えや、類語(ソーシラス)情報も溜まってくる。

    一般に小説家が使う語囊数は、生涯にある程度の上限があり、センテンス中に出現する単語の選択などにも特徴があると青空文庫をメカブって形態素解析かけてた子が教えてくれた。

     

    日本語(NHKのニュース風)→日本語(科学論文風)→日本語(太宰治風)→日本語(夏目漱石風)→日本語(万葉集風)

     

    時代と研究がすすめば、こんな風な言い回しができる柔軟な人工知能ができるかもしれないね。

     

     

    参考

    符牒
    https://ja.wikipedia.org/wiki/%E7%AC%A6%E7%89%92

     

    「どれにしようかな おてんと様の言う通り 鉄砲撃ってばんばんばん もひとつおまけにばんばんばん」
    https://ja.wikipedia.org/wiki/%E3%81%A9%E3%81%A1%E3%82%89%E3%81%AB%E3%81%97%E3%82%88%E3%81%86%E3%81%8B%E3%81%AA

     

    ga066: 人体ソムリエへの道
    https://lms.gacco.org/courses/course-v1:gacco+ga066+2016_06/about

  • AIが創る文章:人工知能じわる技術的特異点

    人工知能についてあれこれ本を読んだり調べたりしたので、ブログにもちょろちょろっと書いていく。

    自分みたいな商店街のおっちゃんがAIについて解説してなんになるんだという話しはおいておいて、ちょっと量が多いので数回に分ける予定。今回はAIの定義とさわりの部分とAI文章について書くよ。

     

    AIにはいろいろな概念や定義があって、よくわからんよね。

    • Artificial intelligence ← 人工知能
    • Addisional intelligence ← 人間の拡張知性としての人工知能
    • Agri-Infomatics ← 農業×AI的な略語をAIに寄せた何か

    などなど。その他大勢。

    ここでは「Artificial intelligence」と限定するが、限定したとしても、マーケティングAI、弱いAI、強いAI、強いAIを超えるAIというようなそこから枝分かれしていたりする。

    AIというと、アンドロイドやサイボーグのような未来SF的なものをイメージする人もいれば、ルンバに入っているアルゴリズムのような技術的なものを連想するひともいる。マーケティング用語としてのAIがちょっと目新しいアルゴリズムを載せただけのものをぐいぐい押してくるので混乱に拍車をかけている。

     
    知能とは何か、知性とは何かがそもそもうまく定義できていない、もしくは暗黙知として共有されていない状態下で人工知能を定義しようというのに無理があるのだ。つまり、偉い人達はなんやら定義を言っているけれども実質人工知能についてはあんま共有できてないし、時代に応じて変わりそうだよねって状態だ。

     

     

    日本語の自然言語処理

    日経がやっている星新一賞というものがある。もう第三回を数えるそうだ。

    スクリーンショット 2016-04-22 01.37.02

    きまぐれ人工知能プロジェクト 作家ですのよ
    http://www.fun.ac.jp/~kimagure_ai/results/index.html

    この文章は実はAI(とされるもの)が作文したものである。

     

    人間がプロットを作成し、それに沿ってコンピューターが作文するいわば人間とAIの合作だ。これが、コンテストの一次審査を突破したそうな。このAIもプロットを作る側の人間と同じところがやっているので、それってただの作文補助ツールじゃね?ということもできるが、まあ、まあ、まあ。

     
    AIによる作文もここまできましたという例です。

    作中の素数、フィボナッチと来てオチの数列の意味がわかんないので誰かおしえてください・・・。

     

    もし、AIと人間が書いた文章と区別できなくなれば世界はスパムメールで再び溢れかえるかもしれないね。
    この自動合成のあたりの手法に興味があって深掘りしたければ、マルコフモデル(これってマルコフニコフ則と関係あるのかな?)だとか、ワードサラダだの、ベイジアンフィルタだのをたどればいいんじゃないかな。

     

    人工知能による自然言語処理

    この分野、日本はとても遅れているように感じる。
    海外ではプロスポーツの速報結果などは既に自動作文になって久しいし、大手新聞社も長文を読者の住所に応じて動的生成するなど意欲的な取り組みが絶えない。

    http://business.newsln.jp/news/201511080445270000.html

     
    記者の記名記事以外は感想ではなく客観的事実にもとづいて事実を報道することが求められるので、人間の介在は必要なくなっていくのも自然の流れだ。

    この分野で日本が立ち遅れているのにはわけがある。
    いや、別に報道と権力が近すぎて報道の自由がダメダメで、編集にある種の意図が介在しているからダメとかそういうところでは(今回は)ない。(youtubeでデビッド・ケイで検索してでてくる案件のことね)

     
    日本語が他の語族体系と構成が遠く、アルタイ語族(ウラル・アルタイ諸語)に類する類語が韓国語ぐらいしかないために両方の話者を集めても1億5千万人程度しかおらず、正直あまり熱心に研究されているとは言いがたい状態にあるためだ。

    インド・ヨーロッパ語族をはじめ多くの言語では単語ごとにスペースなどで区切られていて単語や文節がはっきりしている。逆に日本語は文意を探る前に形態素解析をしなくてはならない。

    形態素解析をしてよしんば品詞ごとにわけられても、そこから正確な文意を汲み取るのが厄介なのだ。

    「おみおつけとお味噌汁が違うものだなんて別にそんな事はなくはなくってよ。」

    ※この記事の最後に形態素解析したらどうなるかをつけておく
    人間にはなんということもないふざけた一文なのに、どのような品詞構造になっていて、文法構造はどうだ、否定の係り受けはどうなっているんだとかを分解しようとすると心が折れる。「おみおつけ」は一体ぜんたいどんだけ丁寧語の接頭字なんだ!みたいな。

     

    「人造寅次郎」というような適当に漢字を並べただけで自由に造語が容易につくれるのも厄介なところだ。言葉が音を表したものではなく、漢字圏は意味を表した表意文字なので単語が話者の発音に囚われず無限に作ることができる。

     

    英語で最も長い単語は「floccinaucinihilipilification:無意味という意味」だという論があるが、発話時の音を共有している書き文字では話者がいない単語は概念共有できない。つまり有限個数である。
    しかし、日本語は辞書にも載らない単語が今日も生まれ、今日も死んでいく。今後も辞書に乗ることもないであろう単語だらけなのだ。しかも「人造寅次郎」という単語である程度共通したイメージができちゃうのかもしれないところがさらに怖いところなのだ。顔文字で会話できたり、Lineのスタンプで会話できるのはこの表意文字に親しんでいるということに由来しているんじゃねぇかなと思っている。。

     
    だけど、こういうのは暗黙知を共有していない日本語話者以外には通じないし、ましてやそれをプログラムのような論理的解釈の上にのせるのはとてもしんどいことなんだ。なんせ辞書で定義もされていない単語をつかって解釈をぶつのは論理記述屋のすることじゃぁない。

     

    さらには日本語はオノマトペのような擬音語で済ませることも多く、「今日はぬらぬらヌチャヌチャした」なんて言えばなんとなく赤面する程度に非言語異存でばっちぐーなローコンテクストの文化背景なんだ。だいたいばっちぐーってなんなんだよ!言語のチートモードだよね。こんなの。

     

    • 話者が少ない
    • 他の語族で得たノウハウが使えない

    これによって、日本語というものの扱いがもの凄く厄介になっている。
    この問題はまたAI作文以外の項でも述べたい。
    まだ分かち書きが難しかった頃は日本語の文章を全文検索することすら難しく、カカシだのナマズだのメカブだのなんだのと、実に独自進化を遂げているのである。ここには言葉を翻訳する以上のローカライズの労力が必要なのだ。

     
    小説を書けるAIを自分もつくってみたくて、物語論(ナラトロジー)についてもちょっと調べたり、小説の作法をちょっとみたりしているのだが、そもそも日本語の資料も物語論についての体系的な研究も少くて(´・ω・`)

    手動でできない事を自動でやってもろくなものにならないので、いま学習を詰んでいるところ。

     

     

    おまけ

    ↓おみおつけの文をYahooの形態素解析にかけるとこんな感じ
    http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html

    <ma_result>
    <total_count>18</total_count>
    <filtered_count>18</filtered_count>
    <word_list>
    <word>
    <surface>おみおつけ</surface>
    <reading>おみおつけ</reading>
    <pos>名詞</pos>
    </word>
    <word>
    <surface>と</surface>
    <reading>と</reading>
    <pos>助詞</pos>
    </word>
    <word>
    <surface>お味噌汁</surface>
    <reading>おみそしる</reading>
    <pos>名詞</pos>
    </word>
    <word>
    <surface>が</surface>
    <reading>が</reading>
    <pos>助詞</pos>
    </word>
    <word>
    <surface>違う</surface>
    <reading>ちがう</reading>
    <pos>動詞</pos>
    </word>
    <word>
    <surface>もの</surface>
    <reading>もの</reading>
    <pos>名詞</pos>
    </word>
    <word>
    <surface>だ</surface>
    <reading>だ</reading>
    <pos>助動詞</pos>
    </word>
    <word>
    <surface>なんて</surface>
    <reading>なんて</reading>
    <pos>助詞</pos>
    </word>
    <word>
    <surface>別に</surface>
    <reading>べつに</reading>
    <pos>副詞</pos>
    </word>
    <word>
    <surface>そんな</surface>
    <reading>そんな</reading>
    <pos>形容動詞</pos>
    </word>
    <word>
    <surface>事</surface>
    <reading>こと</reading>
    <pos>名詞</pos>
    </word>
    <word>
    <surface>は</surface>
    <reading>は</reading>
    <pos>助詞</pos>
    </word>
    <word>
    <surface>なく</surface>
    <reading>なく</reading>
    <pos>形容詞</pos>
    </word>
    <word>
    <surface>は</surface>
    <reading>は</reading>
    <pos>助詞</pos>
    </word>
    <word>
    <surface>なくっ</surface>
    <reading>なくっ</reading>
    <pos>形容詞</pos>
    </word>
    <word>
    <surface>て</surface>
    <reading>て</reading>
    <pos>助詞</pos>
    </word>
    <word>
    <surface>よ</surface>
    <reading>よ</reading>
    <pos>助詞</pos>
    </word>
    <word>
    <surface>。</surface>
    <reading>。</reading>
    <pos>特殊</pos>
    </word>
    </word_list>
    </ma_result>