人工知能と暗黙知としての符丁


「ずいずいずっころばし」と問いかけて「ごまみそずい」と応えられる人間をつくるのに必要なのは、辞書を読みこませることではなく文化背景を含んだ共通体験だ。山と言えば川というような符丁は、古来から言葉だけは通じる間諜、スパイを見分けるのにも使われてきた。

符丁(仲間内でのみ通用する言葉)がなりたつためには、暗黙的に共有している経験や体験が必要となる。
これら経験なしに、教育によってのみ解決しようとすると膨大な学習量が必要になるしそこからおきる偏りを排除できない。

 

「節子」といえば「それ○○やない」と応えられるのは、一部の人たちだし、「どれにしようかな♪」と歌えば、地域によって続く言葉が違う。このように教師となる正解情報がない符丁もある。だから正解を予め定めておくことができない。

いままでの人工知能は、「ずいずいずっころばし」という設問がきたら「ごまみそずい」と答えなさいという正解を教えるような教育をおこなってきた。いわゆるエキスパートシステムだ。だから「茶壺に追われたら?」とすこし設問の状態を変えただけで応じられなかった。
1984年に開始されたCycプロジェクト(サイク)などはまさにその現れで、一般知識をwikipediaのようにデータベース化しつづけている。これはまさに、虎や象もみたことがない伊藤若冲やら江戸時代の絵師に口伝情報だけで虎の絵を描かせるようなもので、描きあがった絵は実物とはかなりかけ離れたものになる。平安時代などの仏師が彫った騎象像(菩薩などが乗った象)の象には蹴爪が生えている。

視覚情報を形容可能な言語情報に落とし、そこからさらに視覚情報に復元しようとすればどうしても必要な情報が欠落し劣化してしまう。言語情報いくら情報を足しても視覚情報を補完しきることはない。

 

すべての事象を言語記述で定義しつづけることに無理があるという事に気がついて、画像などをデータを食わせてそこから特徴を抽出して、そこからでた特徴を言語に結びつけた。コンピューターの演算速度があがったことによって可能になった手法ではあるが、これが今回の人工知能第3のブームの根底にある。

 

抽象化にたどり着いた

で、これはコンピューターがとうとう抽象化にたどり着いたと言い換えることができると思う。ピカソなどが抽象画家と呼ばれるせいで、日本語での「抽象」が「曖昧模糊」なものと認識されている節があるが、ここでいう抽象化はそのものの特徴を抽出したエッセンスと考えて欲しい。猫の画像や動画を見せて、猫の特徴(エッセンス)を説明できるようになったのが今回の深層学習などの到達点だと説明できるのではないだろうか。

 

いままでは猫を見せることなしにひたすら情報だけで猫を説明し続けてきた。

だから、どれだけ教えても、教えられた猫と現実の猫との乖離、齟齬が生じてしまい、教育がいつまで経っても終わらなかった。まるで日本でなされる英語教育のようだね・・・。いくらやっても終わらないし、ちょっと英語圏の片田舎にいっただけでまるで通じなくなるような英語を教えこまれる。言語は意思疎通ができるかが機能要件で、本来は正解などないのに。

 

 

翻訳とビッグデータ解析

翻訳にも深層学習が活躍しだしている。いままでは、日本語と英語を翻訳するときは、辞書に定義されている対訳をもとにおこなわれていた。よくって慣用句レベルの対訳だ。最近のアルゴリズムは語の出現頻度の相関によって文意そのものを訳すように変化しつつあるそうだ。

 

日本語に「肩こり」という単語がある。

外国の人には「肩こり」という単語や概念がないという日本で笑い話になっているが、これも医者にいわせればあたりまえの事だそうだ。そもそも「肩こり」たる、「肩」は厳密に定義すると肩甲骨帯(肩甲骨から首より)が凝るもので、英語の肩は三角筋(いわゆる肩パットの位置の筋肉)の範囲しか定義しない。

 

2016-06-10 15_59_56-2-1. 国民の病気ベスト2+1、肩こりのトリビア _ 講義(1~5) _ 講座番号「ga066」を学習する _ gacco
英語でそこは「首の付け根」というそうだ。だから「肩こり」は「neck pain」と表現される。

ちなみに、肩甲骨帯を肩と呼びはじめ、肩こりという言葉がではじめたのは二葉亭四迷、夏目漱石以降この100年だそうだ。これをいままで通り辞書に乗っけるなら、「肩こり」は「neck pain」ですよと教えこむのだろう。だが、肩こりについて書かれる文章にneck painが同程度出てくるなと文意がわかれば、教えなくてもそれらを結びつけて考えることができるようになる。

 

これは大切なことで、1から10まで教えていないとできない融通のきかん馬鹿者をつくるか、教えていないことにも応えられるようになるかの違いがある。これができるようになれば、日本語での言い換えや、類語(ソーシラス)情報も溜まってくる。

一般に小説家が使う語囊数は、生涯にある程度の上限があり、センテンス中に出現する単語の選択などにも特徴があると青空文庫をメカブって形態素解析かけてた子が教えてくれた。

 

日本語(NHKのニュース風)→日本語(科学論文風)→日本語(太宰治風)→日本語(夏目漱石風)→日本語(万葉集風)

 

時代と研究がすすめば、こんな風な言い回しができる柔軟な人工知能ができるかもしれないね。

 

 

参考

符牒
ja.wikipedia.org/wiki/%E7%AC%A6%E7%89%92

 

「どれにしようかな おてんと様の言う通り 鉄砲撃ってばんばんばん もひとつおまけにばんばんばん」
ja.wikipedia.org/wiki/%E3%81%A9%E3%81%A1%E3%82%89%E3%81%AB%E3%81%97%E3%82%88%E3%81%86%E3%81%8B%E3%81%AA

 

ga066: 人体ソムリエへの道
lms.gacco.org/courses/course-v1:gacco+ga066+2016_06/about


17歳が不正プログラムをつくったとして逮捕された


佐賀市の無職の少年(17)が有料デジタル放送をB-CASカードなしで見れるプログラムを公開したとして不正競争防止法違反容疑で逮捕された。不正アクセス禁止法案とか著作権上の複製権や公衆送信権の侵害あたりをやらかしたのかと思ってニュースを読んだら、不正競争防止法違反らしい。

 
テレビまわりほとんど興味がないのでB-CASカードとかがよくわからないのだけど、B-CASカードそのものが電波法が定める「公平で効率的な電波帯域の利用」という公益性に反してんじゃねぇかな。不正競争防止法違反というか、独占禁止法こそ仕事しろ案件。

 

イノベーションには2つの方向がある。
「なぜなぜ」を突き詰めて深掘りしていく下位概念。
「そもそも」をたどる上位概念。

 
<テレビを見るのに「B-CASカード」が必要なのは不便だ> という課題を、17歳の子は上位概念で辿って、そもそもなぜ「B-CASカード」が必要なのだろうか?から解決した。解決してしまった。破壊的イノベーションを実行したわけだ。破壊的イノベーションは破壊される側にいる人たち(だいたいが既に利権者側なので、地位と権力がある)はそれを嫌がる。

 

 

実にもったいない。

 
この才能をこちらにしかのばせなかった環境も、彼自身も、それを逮捕という形でしか終わらせられなかった公権力側も。そして、恐らく逮捕されて有罪になった後は、粗暴犯やらと同じ更生プログラムに入って再教育がされるのだろうが、これも実にもったいない未来である。

 

つくりあげたものは褒められたものではなかったかもしれないが、彼は技術的課題をハックして、しかもそれを公衆に提供した利他的な振る舞いができる子なわけだ。それが単純な承認欲求からくるものだとしても、彼は問題解決にまで至っている。ここにまで到れる人というのはやはり希少だ。その才をこんな無駄な課題(人間が人間のためにつくったただの障害)に費やされたことも、いろいろもったいない。

 

もっと情熱を向けられる別の課題はなかったものなのか。更生プログラムを選べるなら、彼には多くのなんらかの課題を抱えてる人たちに触れさせるボランティア罰がよいように思う。(日本にそのような制度はないが・・・。)そのほうが未来のためになる。

 

 捜査関係者は「ネット上で入手できる不正プログラムは、売買される不正カードに比べて拡散の可能性が高く、無料視聴が横行する恐れがある」と警戒している。

電波利権は利権の中でも強烈に強い利権なので、禁忌に触れちゃった感じか。
このコメントから察するに、サーバー問い合わせのないただのデジットである可能性が高い。高校生程度の子が公開されている仕様から辿れるレベルの。無駄で、無意味な障壁でしかないように思う。ハリボテを暴いてしまった子供を掴まえて「不正競争防止法違反だ!」と喚くのは実に大人気ない。「よく捕まえた!」とその仕事ぶり評価する人は現代では確実に居るだろうが、その評価が30年後まで不変であるとは思ってはいけない。

 

スティーブ・ジョブズは電話をタダで掛けられるハックツールでビジネスをスタートした。ビル・ゲイツやその他多くの名だたる経営者だって相当やらかしている。それを見出して導く環境があればこその今だ。

 

もったいな、とただ嘆息するのみである。

 

 

<不正プログラム>TV無料視聴をネット公開、少年逮捕
毎日新聞 6月8日(水)11時40分配信
headlines.yahoo.co.jp/hl?a=20160608-00000036-mai-soci

佐賀市の無職の少年(17)を不正競争防止法違反容疑で逮捕

「B-CASカード」がなくても有料デジタル放送が無料で視聴できるプログラムを独自に開発し、自身のホームページ上に無料で公開して不特定多数の人が閲覧、入手できる状態にした

「ワークキー」と呼ばれる暗号をパソコンに入力することで放送を視聴できるようになる

逮捕前の任意の調べには「カードが邪魔だった。無料視聴したかった」と容疑を認めていたという。

 

B-CAS使わず有料テレビ計70chを無料視聴 ネットで「不正プログラム」公開 17歳無職少年逮捕 警視庁
www.sankei.com/affairs/news/160608/afr1606080009-n1.html
不正視聴プログラムを公開=全国初、容疑で少年逮捕-警視庁など
www.jiji.com/jc/article?k=2016060800233&g=soc

カード使わず、新たな手口 無料視聴プログラム公開容疑
www.asahi.com/articles/ASJ68319LJ68UTIL004.html


パナマ文書に登場する市町村ランキング


無駄な仕事をしてみた。
オフショアリークスとパナマ文書のデータから日本在住者の住所をコピペして、
エディタの置換と抜き出しとエクセルとを行き来して、市区町村ごとに集計してみた。

↓ 元データはここね

offshoreleaks.icij.org/search?c=JPN&cat=3
なんていうか30分ぐらいで終わるとおもったら色々こころがくじけて2日ぐらい掛かった。(貴重な余暇時間がぁ)
アルファベットで適当に表記された住所の名寄せがこんなにしんどいなんて思いもしなかったんだ。

 

外人が適当にヒアリングして綴ったような住所から、読み間違えで登録された住所だらけでわっはーい!ってなった。ったく、中央区の綴りの自由さといったら!!!!

なんで名古屋市の人は、住所表記に愛知県とつけないだろうか・・・!

 

kaminakawa ken → 神奈川県だなとか、他の情報から類推できるところは埋めています。
TADOKU YARAGIBASHI→ 台東区の柳橋かな? (検索で頑張りました
TWADE→岩出市 TとIのタイポかな・・・?
NANQIANZHU→google先生が南千住だっていうんだ!

IZUMIGAO市→福岡県に泉ヶ丘市でもあるのかとおもったらねぇので諦めた!

 

こんな感じでの適当にまるめています。
市区町村名はよくわからないところは適当です。かなり実在性が疑われます。いまはなき田無市と西東京市が混在しているけど、そんなのは許して。

 

DONG JING DU GANG QU
Treinta
machilda
Jinggang
Fu Shan Hsien
?????????????
Qingsen
Laiming Chuan
P O Box

ビル番地名しかかかれておらず市町村名と都道府県名が同時にないものはデータから弾きました。20件ぐらいかな?
・・・。
なんだろう。
おれはなにをしたんだろう。別にこんなことがしたかったわけじゃないのだ・・・が。

 

まあ、データ・・・。
はいよ。
やっぱ港区がダントツなんだね。

総合計 792
港区 東京都 99
渋谷区 東京都 44
横浜市 神奈川県 32
世田谷区 東京都 30
千代田区 東京都 28
大阪市 大阪府 25
中央区 東京都 24
新宿区 東京都 20
名古屋市 愛知県 20
品川区 東京都 18
目黒区 東京都 17
神戸市 兵庫県 16
杉並区 東京都 15
川崎市 神奈川県 14
文京区 東京都 13
江東区 東京都 9
大田区 東京都 9
さいたま市 埼玉県 8
仙台市 宮城県 8
板橋区 東京都 8
江戸川区 東京都 7
堺市 大阪府 7
千葉市 千葉県 7
足立区 東京都 7
福岡市 福岡県 7
市川市 千葉県 6
中野区 東京都 6
豊島区 東京都 6
練馬区 東京都 6
芦屋市 兵庫県 5
浦安市 千葉県 5
荒川区 東京都 5
松戸市 千葉県 5
武蔵野市 東京都 5
鎌倉市 神奈川県 4
岐阜市 岐阜県 4
札幌市 北海道 4
吹田市 大阪府 4
台東区 東京都 4
町田市 東京都 4
藤沢市 神奈川県 4
野田市 千葉県 4
甲府市 山梨県 3
鯖江市 福井県 3
所沢市 埼玉県 3
船橋市 千葉県 3
調布市 東京都 3
長崎市 長崎県 3
尼崎市 兵庫県 3
柏市 千葉県 3
豊田市 愛知県 3
立川市 東京都 3
つくば市 茨城県 2
伊丹市 兵庫県 2
宇都宮市 栃木県 2
岡山市 岡山県 2
葛飾区 東京都 2
茅ヶ崎市 神奈川県 2
牛久市 茨城県 2
香芝市 奈良県 2
今治市 愛媛県 2
三鷹市 東京都 2
鹿児島市 鹿児島 2
春日井市 愛知県 2
昭島市 東京都 2
上越市 新潟県 2
生駒市 奈良県 2
西京区 京都府 2
西多摩郡 東京都 2
川越市 埼玉県 2
川口市 埼玉県 2
泉佐野市 大阪府 2
大津市 滋賀県 2
長岡京市 京都府 2
鳥取市 鳥取県 2
田無市 東京都 2
八戸市 青森県 2
八千代市 千葉県 2
飯田市 長野県 2
府中市 東京都 2
伏見区 京都府 2
平塚市 神奈川県 2
豊中市 大阪府 2
揖保郡 兵庫県 2
和歌山市 和歌山県 2
熊本県 1
広島県 1
東京都 1
徳島県 1
IZUMIGAO市 福岡県 1
みよし市 広島県 1
阿南市 徳島県 1
愛知市 三重県 1
虻田郡 北海道 1
伊佐市 埼玉県 1
伊勢崎市 群馬県 1
伊那市 長野県 1
伊万里市 佐賀県 1
一宮市 愛知県 1
稲城市 東京都 1
稲敷郡 茨城県 1
羽島郡 岐阜県 1
横須賀市 神奈川県 1
沖縄市 沖縄県 2
乙訓郡 京都府 1
下京区 京都府 1
下津賀郡 栃木県 1
花巻市 岩手県 1
橿原市 奈良県 1
鎌倉 神奈川県 1
岩出市 和歌山県 1
岩沼市 宮崎県 1
久喜市 埼玉県 1
宮崎市 宮崎県 1
京都市 京都府 1
境八代郡 山梨県 1
玉名郡 熊本県 1
金沢市 石川県 1
釧路市 北海道 1
熊谷氏 埼玉県 1
熊本市 熊本県 1
群馬郡 群馬県 1
交野市 大阪府 1
厚木市 神奈川県 1
広島市 広島県 1
高岡市 富山県 1
高松市 香川県 1
高松市 神奈川県 1
高知市 高知県 1
高槻市 大阪府 1
国立市 東京都 1
黒川郡 宮城県 1
狛江市 東京都 1
佐倉市 千葉県 1
左京区 京都府 1
桜井市 奈良県 1
三木市 兵庫県 1
山口市 山口県 1
山武郡 千葉県 1
四條畷市 大阪府 1
児玉市 大阪府 1
習志野市 千葉県 1
春日部市 埼玉県 1
小金井市 東京都 1
小牧市 愛知県 1
松原市 大阪府 1
松山市 愛媛県 1
松本市 長野県 1
上尾市 埼玉県 1
常陸太田市 茨城県 1
寝屋川市 大阪府 1
新潟市 新潟県 1
逗子市 神奈川県 1
西宮市 兵庫県 1
西東京市 東京都 1
西白河郡 福島県 1
西和田市 大阪府 1
静岡市 静岡県 1
石巻市 宮城県 1
浅口郡 岡山県 1
前橋市 群馬県 1
匝瑳市 千葉県 1
相模原市 神奈川県 1
草加市 埼玉県 1
足柄下郡 神奈川県 1
多治見市 岐阜県 1
多摩市 広島県 1
多摩市 東京都 1
対馬市 愛知県 1
大崎市 宮城県 1
大和市 神奈川県 1
秩父市 埼玉県 1
中京区 京都府 1
朝霞市 埼玉県 1
長久手市 愛知県 1
津市 三重県 1
津島市 愛知県 1
天理市 奈良県 1
唐津市 佐賀県 1
藤津郡 佐賀県 1
那賀郡 三重県 1
那覇市 沖縄県 1
南埼玉群 埼玉県 1
南東区 大阪府 1
南豊橋市 愛知県 1
日高市 埼玉県 1
日野市 東京都 1
入間市 埼玉県 1
白井市 千葉県 1
八王子市 東京都 1
八代市 熊本県 1
尾張旭市 愛知県 1
富里市 千葉県 1
福山市 広島県 1
別府市 大分県 1
防府市 山口県 1
北九州市 福岡県 1
北区 東京都 1
北勝浦郡 奈良県 1
墨田区 東京都 1
枚方市 大阪府 1
箕面市 大阪府 1
名取市 宮城県 1
木更津市 千葉県 1
門真市 大阪府 1
野田市 京都府 1
蓮田市 埼玉県 1
さいたま市 埼玉県 8
徳島県 1
東京都 1
広島県 1
熊本県 1

 

なんか同じデータを集計してくれてないんですが、なんでしょう。
はー、マルチソートが失敗してる・・・。
まあ、もう心折れた。 → (追記 5/12 一晩寝たら回復したので最低限データ綺麗にしておいた。)

 

ついでに、都道府県ランキング。

東京都 413
神奈川県 66
大阪府 51
千葉県 42
愛知県 32
兵庫県 30
埼玉県 27
京都府 12
宮城県 12
福岡県 9
奈良県 8
北海道 6
岐阜県 6
茨城県 6
広島県 5
長野県 4
山梨県 4
熊本県 4
和歌山県 3
福井県 3
栃木県 3
長崎県 3
新潟県 3
三重県 3
佐賀県 3
群馬県 3
沖縄県 3
岡山県 3
愛媛県 3
徳島県 2
鳥取県 2
青森県 2
鹿児島 2
滋賀県 2
山口県 2
宮崎県 2
福島県 1
富山県 1
大分県 1
石川県 1
静岡県 1
高知県 1
香川県 1
岩手県 1

住所が同じで別の人や会社で登場すると、複数カウントされてしまうので(東京なんかはまさにそんな感じ)あくまで、数はご参考までに。パナマ文書、オフショアリークスに登場しない県は「島根県、秋田県、山形県」の三県でした!!

 

 

いいのか悪いのかなんなのか。

鳥取県でもお金持ちはいるのにと、鳥取で乗ってた住所をグーグル・ストリートビューでみてみると、
綺麗なお家の向かいが偉いことになってて思わずスクショ。

2016-05-10 19_29_36-設定

なんつうスポット地域格差社会。まあ、空き家なんだろうけど。

フスマは猫かな??でも、左側のドアの窓も割れてるしな・・・。木の生え具合いとか、雨樋の無事具合いからみても、まだ新しそうなのに、、、まあ、自分の地元の住所とかストリートビューはすでに家ごとボカシが入ってるし、アンタッチャブルな案件だろうので、みなさま大人対応でよろしく。