人工知能と暗黙知としての符丁


「ずいずいずっころばし」と問いかけて「ごまみそずい」と応えられる人間をつくるのに必要なのは、辞書を読みこませることではなく文化背景を含んだ共通体験だ。山と言えば川というような符丁は、古来から言葉だけは通じる間諜、スパイを見分けるのにも使われてきた。

符丁(仲間内でのみ通用する言葉)がなりたつためには、暗黙的に共有している経験や体験が必要となる。
これら経験なしに、教育によってのみ解決しようとすると膨大な学習量が必要になるしそこからおきる偏りを排除できない。

 

「節子」といえば「それ○○やない」と応えられるのは、一部の人たちだし、「どれにしようかな♪」と歌えば、地域によって続く言葉が違う。このように教師となる正解情報がない符丁もある。だから正解を予め定めておくことができない。

いままでの人工知能は、「ずいずいずっころばし」という設問がきたら「ごまみそずい」と答えなさいという正解を教えるような教育をおこなってきた。いわゆるエキスパートシステムだ。だから「茶壺に追われたら?」とすこし設問の状態を変えただけで応じられなかった。
1984年に開始されたCycプロジェクト(サイク)などはまさにその現れで、一般知識をwikipediaのようにデータベース化しつづけている。これはまさに、虎や象もみたことがない伊藤若冲やら江戸時代の絵師に口伝情報だけで虎の絵を描かせるようなもので、描きあがった絵は実物とはかなりかけ離れたものになる。平安時代などの仏師が彫った騎象像(菩薩などが乗った象)の象には蹴爪が生えている。

視覚情報を形容可能な言語情報に落とし、そこからさらに視覚情報に復元しようとすればどうしても必要な情報が欠落し劣化してしまう。言語情報いくら情報を足しても視覚情報を補完しきることはない。

 

すべての事象を言語記述で定義しつづけることに無理があるという事に気がついて、画像などをデータを食わせてそこから特徴を抽出して、そこからでた特徴を言語に結びつけた。コンピューターの演算速度があがったことによって可能になった手法ではあるが、これが今回の人工知能第3のブームの根底にある。

 

抽象化にたどり着いた

で、これはコンピューターがとうとう抽象化にたどり着いたと言い換えることができると思う。ピカソなどが抽象画家と呼ばれるせいで、日本語での「抽象」が「曖昧模糊」なものと認識されている節があるが、ここでいう抽象化はそのものの特徴を抽出したエッセンスと考えて欲しい。猫の画像や動画を見せて、猫の特徴(エッセンス)を説明できるようになったのが今回の深層学習などの到達点だと説明できるのではないだろうか。

 

いままでは猫を見せることなしにひたすら情報だけで猫を説明し続けてきた。

だから、どれだけ教えても、教えられた猫と現実の猫との乖離、齟齬が生じてしまい、教育がいつまで経っても終わらなかった。まるで日本でなされる英語教育のようだね・・・。いくらやっても終わらないし、ちょっと英語圏の片田舎にいっただけでまるで通じなくなるような英語を教えこまれる。言語は意思疎通ができるかが機能要件で、本来は正解などないのに。

 

 

翻訳とビッグデータ解析

翻訳にも深層学習が活躍しだしている。いままでは、日本語と英語を翻訳するときは、辞書に定義されている対訳をもとにおこなわれていた。よくって慣用句レベルの対訳だ。最近のアルゴリズムは語の出現頻度の相関によって文意そのものを訳すように変化しつつあるそうだ。

 

日本語に「肩こり」という単語がある。

外国の人には「肩こり」という単語や概念がないという日本で笑い話になっているが、これも医者にいわせればあたりまえの事だそうだ。そもそも「肩こり」たる、「肩」は厳密に定義すると肩甲骨帯(肩甲骨から首より)が凝るもので、英語の肩は三角筋(いわゆる肩パットの位置の筋肉)の範囲しか定義しない。

 

2016-06-10 15_59_56-2-1. 国民の病気ベスト2+1、肩こりのトリビア _ 講義(1~5) _ 講座番号「ga066」を学習する _ gacco
英語でそこは「首の付け根」というそうだ。だから「肩こり」は「neck pain」と表現される。

ちなみに、肩甲骨帯を肩と呼びはじめ、肩こりという言葉がではじめたのは二葉亭四迷、夏目漱石以降この100年だそうだ。これをいままで通り辞書に乗っけるなら、「肩こり」は「neck pain」ですよと教えこむのだろう。だが、肩こりについて書かれる文章にneck painが同程度出てくるなと文意がわかれば、教えなくてもそれらを結びつけて考えることができるようになる。

 

これは大切なことで、1から10まで教えていないとできない融通のきかん馬鹿者をつくるか、教えていないことにも応えられるようになるかの違いがある。これができるようになれば、日本語での言い換えや、類語(ソーシラス)情報も溜まってくる。

一般に小説家が使う語囊数は、生涯にある程度の上限があり、センテンス中に出現する単語の選択などにも特徴があると青空文庫をメカブって形態素解析かけてた子が教えてくれた。

 

日本語(NHKのニュース風)→日本語(科学論文風)→日本語(太宰治風)→日本語(夏目漱石風)→日本語(万葉集風)

 

時代と研究がすすめば、こんな風な言い回しができる柔軟な人工知能ができるかもしれないね。

 

 

参考

符牒
ja.wikipedia.org/wiki/%E7%AC%A6%E7%89%92

 

「どれにしようかな おてんと様の言う通り 鉄砲撃ってばんばんばん もひとつおまけにばんばんばん」
ja.wikipedia.org/wiki/%E3%81%A9%E3%81%A1%E3%82%89%E3%81%AB%E3%81%97%E3%82%88%E3%81%86%E3%81%8B%E3%81%AA

 

ga066: 人体ソムリエへの道
lms.gacco.org/courses/course-v1:gacco+ga066+2016_06/about


コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください