住所正規化問題は住所地獄の一丁目


前回のつづき。
どこまでが町名でどこが番地名だ、みたいな、住所正規化の問題。
そんなものはコンバーターの精度を競うまでもなく、住所問題を扱うときには実はさしたる問題ではない。

半角カタカナを全角ひらがなに変化できる程度のDX人材がいないと駄目だとか、なければ人員と努力忍耐根性が必要だとか、まあいろいろあるけれども、前回書いたような基礎自治体、町名ぐらいまでの問題のほとんどは郵便番号辞書で解決することができるからだ。

パソコンなどの日本語入力IMEの郵便番号辞書をONにしていれば、郵便番号の数字をいれるだけで住所に変換することができる。

新たに作ったシステム導入の説明ついでに、日本語入力IMEに郵便番号辞書をONにするやり方を教えてあげたら、それが一番喜ばれたなんていう悲しい体験があるほど郵便番号辞書の利用はDX化においてまずなされるべきことだと思う。


だから、そんなものは住所問題地獄の一丁目でしかない。
なにせ郵便番号辞書という「正解」があるのだからそれにぶつければよいだけの問題だからだ。

ふたとおりの正しい住所

というわけで、地獄の二丁目の門をくぐろう。

日本の住所には、本籍地などで使われる「法務局(登記所)が定めた住所」と、郵便物などでつかわれる「住居表示に関する法律」により定められたふたとおりの住所というものがある。土地登記地獄のフタもあるのでこれも盛大に不満をぶちまけたいが、ここでは触れない。

◯丁目◯番地◯号みたいなのは、住居表示実施適用済みの住所。
昭和37年より前は、地番が住所として使われていた。当時は家も人口少なかったから地域名に連番を振るだけで住所が管理できた。昭和中期のベビーブーム、人口爆発により、ひとつの土地に複数家族が住み始め、連番の途中に新たに家が立ち、アパートが立ち、ビルが立ち、そして、地名+連番+枝番による住所管理は破綻を迎えた。

いまの23区は東京市で、都は東京府で三鷹が村だったり町だったりした頃から現役の表札。地番表示。

昭和37年、住居表示に関する法律が制定された。
1962年の法律なら、もういい加減一律悉皆に適用されていそうだが、実はそうでもない。

田舎などは古い地番がそのままつかっていたり、北海道みたいな非人口密集地だと、無番地みたいなエリアも多い。まあそれくらいは、実務の用であるので使いやすいほうを選択しても問題はない気もする。

だが、実際は人口が多く入れ替わりが多い新宿区ですらまだ未実施地区はこんなにもあるのだ。

東側の青紫の色のところが未実施地区

新宿区住居表示実施図(PDF)
www.city.shinjuku.lg.jp/content/000280624.pdf

新宿だよ?
乗降車人数が世界最多の一日に350万人の新宿駅を擁する新宿区がだよ?
昭和37年の住所改正すらまだ途中なのよ。
しかも厄介なことに、住居表示実施適用済みでも古い地番の住所を使う人もいる。

新宿区からの注文で、住所が新宿区**町3番みたいな。
あー、書き漏れかな? 新宿みたいな人口多い地域でこれじゃ届かないだろと確認の問い合わせしたら、「うちはずっとこれで届いてきたから」と。
あえてそれを使う側にもこだわりもある。戦争で焼けなかった地域には残されたもののプライドも継いでいるわけさ。

郵便番号の地獄

古い番地が残る新宿の東側とは逆に、新宿区の西側、都庁がある超高層ビル群に変貌したエリアは、ひとつのビルに数百の会社、数千人がすし詰まっているので、ひとつのビルにいくつも郵便番号があったり、排他的論理和みたいな「次のビルを除く」表記になっていたりしてさらに混迷の様相をみせる。

丸の内とか、西新宿とかはこんなんばっかりだ。

〒163-0701 西新宿小田急第一生命ビル(1階)
〒163-0702 西新宿小田急第一生命ビル(2階)

フロアごとに郵便番号が異なる。
郵便番号データを信じすぎるとこういうデータとも戦わなければいけない。

郵便番号辞書を信頼しなければ始まらないが、信用してしまってはだめなのだ。

郵便番号が一つのエリアにユニークに紐づいていれば問題は少なかったのかもしれないが、現実はそれを許してはくれない。同じ町名なのに、郵便番号が分かれることもあれば、一つの郵便番号にも複数の異なる町名がぶら下がるなんてこともある。

厄介なことに、例えば「山田町」と「山田」みたいに似ているけれども非なるものが同じ郵便番号にぶら下がっていることも結構な出現頻度であるのだ。

拗音促音濁点半濁点地獄

オフコンや汎用機の時代に作られたシステムでは、小さい「ぁぃぅぇぉ」や「゛」「゜」が現在のシステムの扱いのそれとは異なることがある。顕著なのが自治体や郵便局、銀行など、80年代、90年代、システム化が早かった界隈だ。ATMなど制限された平面に物理の文字ボタンの入力に対応していたため、濁点などを含んだすべての読み仮名のボタンを配置することができなかったのだ。

うちは紅茶の茶葉さんなので会社名に「茶屋」という漢字が入る。
自分はこれを「ちゃや」のつもりでつけたのだけど、銀行口座をつくるときちょっとした手違いでふりがなが「ぢゃや」になってしまった。
日本郵便などは促音にも対応していない銀行の場合は、小さい「ャ」がなく、「ヂ」が「チ」+「゛」で表現される。つまり「ヂャヤ」は「チ゛ヤヤ」となるわけだ。

システム上(文字コード上も)、「ヂ」と「チ゛」はまったく別のものなのでこれを同じものと見做すためには、同じものですよと変換してやるか、それらを同じものとしてつないで定義してやらなければ検索することもできない。だから、システム化するときに「チ゛」は「ヂ」にしてデータベースに格納することにしよう。そんな風にして、全銀聯などはデータベース連携をすすめたのだろう。

なるほど、システムの更新や仕様策定のときにそう変換するルールを決めることは大切だ。
では、「ア゛」と入力された場合は?
そして運用をはじめて具体的な例外が次々に出てきて頭を抱えることになるのである。

「チ゛ヤヤ」と登録してしまったデータから「ヂャヤ」を復号することはできないのだ。
かくして「チ゛ヤヤ」のデータも正しいものとして生存し続けることになるわけだ。

タレントの中川翔子さんは、薔子(しょうこ)で命名しようとしたが「薔」が常用漢字でないために登録できず、しかも、促音の「ょ」が「よ」になってしまい本名「しようこ」で戸籍登録されてしまったそうである。あ、ご結婚おめでとうございます!

そんな感じに、名前は役所届け出のときに使えない漢字だの、つかえない読みだのと拒否されシステムにあわせて、担当者の胸先三寸で運用され、そして「正しい」データが増えていくのである。

法務局の屋号はチャヤになったのに銀行はヂヤヤだ。果たして我が社の正しい読み方とはなんぞや?

住所には宛名も含むので当然だが、同じような問題が住所にもおこる。

日本郵便の郵便番号辞書CSVのダウンロードページに行くと面白いものが今でも見れる。
読み仮名データの促音・拗音を小書きで表記しないものと、小書きで表記するものがある。
例:ホツカイドウ
例:ホッカイドウ

何故2023年にもなって「ホツカイドウ」のデータを残しておく必要があるのか?
名寄して変換できるじゃないか!というモノのみ石を投げよ。
マサカリが投げ返されることであろうぞ。

このペースで書いていくとあと2回ぶんぐらい続きそう。

他参考

IMIコンポーネントツール
info.gbiz.go.jp/tools/imi_tools/

(前回の投稿)明るい日本の住所表記に安心してくださいはできますか
kuippa.com/blog/?p=2228


明るい日本の住所表記に安心してくださいはできますか


久しぶりにマサカリが飛んでくるネタらしい。
ネットショップを20年近くやってると、うちみたいな弱小零細でも何万何十万と住所処理を処理することになり言わずには居られない鬱憤もたまる。
つくづく日本語のシステム、データベース化は難しい。

英語であればアルファベット24文字と大文字小文字ぐらいなのでUpper()なりlower()なりでどちらかに統一すれば検索できる。
日本語は漢字、ひらがな、カタカナぐらい?
漢字は一般的なコンピューターシステムでサポートされているJIS系の第1~4に補助漢字までいれてだいたい約16,000字ぐらいが一般的なフォントで対応されている。
ということは、24文字を1万6千文字に増やした分だけ頑張らなきゃいけないのか! それは大変だね!!

・・・なんていう枠には収まらない。

だからこそ、地獄のフタを一度でも開けた人たちはマサカリを投げつけるのである。完全に理解した曲線のバカ山の能天気さは絶望の谷底からみると眩しすぎるのだ。
地獄に落ちてしまった亡者が手をのばすほどには。

16000文字÷24文字=666.66666666666倍

そこは決して開けてはいけない地獄のフタなのである。

分かち書きカカシ先生は脳みそを求めて旅に出る地獄

ちょいと前に話題になった動画に「変なAI」というのがあった。

雨穴さんの【科学ホラーミステリー】変なAI
www.youtube.com/watch?v=NAv0aScEQm0

このホラーミステリー的な動画では作中にAI「kakashi」というのが出てくる。カカシと聞くと、インターネット老人会の人たちはすこしざわざわする。

古い話し。

kakashi、実は2000年の頃に実在していて、かつては全文検索エンジンをつくるのに、kakashiやらnamazuやらをつかって分かち書き、インデックス化をしている時代があった。

分かち書きというのは、英語の場合は単語と単語の間がスペースで区切られているため、単語で検索することができるが、「日本語 は 文中 に 区切り が ない」ので、こんな感じ分解してやる。

チャセンやらメカブやら形態素解析が一般化する前までは突っ込まれたテキストをどこで区切るのかは実に大問題で、無計画な全探索などをおこなってしまうと一生かけても応答しないぐずのろ検索エンジンになってしまうのだ。そんな風に予め持っている手持ちの辞書と突き合わせて文章を細切れにして索引をつけておく必要があった。

愛知海部飛島新田竹之郷ヨタレ南ノ割

これは日本一長い住所から、あえて郡とか字の区切り文字表記を抜いたものであるが、日本人の何人がこれを正確に分かち書くことができるだろうか?線でも引いて区切ってみてほしい。

正解はこれ。

愛知県 海部郡 飛島村 大字飛島新田 字竹之郷 ヨタレ南ノ割

人間に難しいことはAIにも難しい。
2023年現在、だいぶ進化したとは言え、ChatGPTに日本語の文字数を尋ねるとおかしな答えが帰ってくることがある。夏を季語に俳句を読んでもらった。

2023年なうてのAI、ChatGPTさんは俳句を読めても、それが何文字ですか?みたいな人間には簡単に見える質問には満足に答えることができないことがある。ここに日本語の難しさがある。

もしかしたらこれは、GPTの学習が「日本語」ではなく、文字コードのバイナリで線形学習していることによる弊害かもしれない。存在しない「視覴」なる単語を使いだしたという騒動を見ているとその確信を強くするが、マルチモーダルを目指す過程に今この瞬間だけ見ることができるマルチバイト言語に現れた時代の徒花と考えれば、音数え 趣深し 梅雨の藍。

これはおもしろい。UTF-8とChatGPTのトークン:
視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112|
視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248|
視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112|
「覚」の前半と「聴」の後半がくっついたみたい t.co/oSpUfNxsUN— Haruhiko Okumura (@h_okumura) June 8, 2023

ちょっとだけ解説すると、文字コードのUTF-8のバイナリはリバースにスタックされてるので日本語化するときは読み込み順を逆にしてからエンコードしてやらにゃならない。U+07FFみたいなんがバイナリ読み込みするとFF07みたいに拾われてくるので07FFに結合してUTF-8でデコードする感じ。これはUTF-8が1-4バイトの可変長であることに多分由来しているんだろうけど詳しくは知らんし自分には荷が重いので、ここではそんな地獄もあるよと軽く触れる程度で終える。しらんけど。

地名の読み方無限地獄

日本語を分かち書くことはただでさえ難しいのに、さらに厄介なことに、固有名詞、地名はさらに輪をかけてそれを困難にする。

地名をなんと読むか、読めない地名をどこで区切るかは母語を日本語にする人にもとても難しい問題だ。
そのため表現も揺らぎやすい。
やがて同じ読みでもいくつも書き方が存在するようになる。

山手、山の手、山ノ手。

ひとつの書き方にいくつも読み方、ひとつの読み方に複数の書き方が存在するようになる。
山手と書いて、やまのてと読んだり、やまてと読んだり、どちらでも正解だったり、読み方が決まっていたり、あるいはどちらとも間違いだったりする。会社によって自治体によって運送会社によって正解が変わる。東京にも山の手はあるし神奈川にも神戸にもある。

これに方言も混じれば読み方がさらに増え、さらに書き方が増える。
こんな風にして地名は発散する。

昨年ニホンゴムズイという、アプリを習作がてら作った。
歴史的な経緯(?)から千葉県にはとてもむずかしい難読地名が多いのだけど、それを4択クイズにしただけのそんなにおもしろくもないゲームだ。

※ 今はAppleデベロッパライセンス切れ(?)でダウンロードできないけど、一応リンクだけ残しておく
apps.apple.com/jp/app/%E3%83%8B%E3%83%9B%E3%83%B3%E3%82%B4%E3%83%A0%E3%82%BA%E3%82%A4/id1608182925

我孫子市、富津市、酒々井町、東庄町

匝瑳市、鋸南町、八街市

読めるだろうか?

正解は・・・

我孫子市(あびこし)、富津市(ふっつし)、酒々井町(しすいまち)、東庄町(とうのしょうまち)、匝瑳市(そうさし)、鋸南町(きょなんまち)、八街市(やちまたし)

千葉県の基礎自治体だけをあげつらっても、ごらんの難読さ加減。

ちなみ、今ちらっとゲームのデータを見てきたのだけど、千葉県では地名に使われる漢字は常用漢字うち737文字しか使われておらず、1538が不使用となっている。逆に139文字は常用漢字以外の漢字が使われていた。

同表記なのに別の場所という例もある。

181-0016 東京都三鷹市深大寺と182-0012 東京都調布市深大寺は数キロと絶妙に離れているが連続した一体エリアではない。


調布深大寺にある植物公園は神代寺植物公園だの神代高校だの、神代とする別の漢字表記もある。
深大寺がお寺の名前に由来しいて、神代は神代村に由来しているわけだが、こんな風にすこしの区別付けのために漢字表記をあえて変えた。そしてその変更にはそれなりのこだわりがあったので放棄するわけにはいかない。
三鷹の深大寺と調布の深大寺はまだ自治体が別だからよかった。だが、もし合併したら?

630-8016 奈良県奈良市南新町(みなみしんちょう)(52~212番地)
630-8356 奈良県奈良市南新町(みなみしんまち)(1~32番地)

950-3323 新潟県新潟市北区東栄町(とうえいちょう)
950-3104 新潟県新潟市北区東栄町(ひがしさかえまち)

673-0012 兵庫県明石市和坂(わさか)
673-0012 兵庫県明石市和坂(かにがさか)

住所については、例外の枚挙には暇がないのである。
そして永遠に地名は増殖する。

なんかまだまだまだまだいい足りないが、長くなったのであと2回ぐらいはつづく

参考

とにかく日本の住所のヤバさをもっと知るべきだと思います
note.com/inuro/n/n7ec7cf15cf9c

住居表示に関する法律
elaws.e-gov.go.jp/document?lawid=337AC0000000119

愛知県海部郡飛島村大字飛島新田字竹之郷ヨタレ南ノ割は本当に日本一長い地名か?
dailyportalz.jp/kiji/140708164564


アートと表現の不自由


10月22日は「即位礼正殿の儀」が行われた。令和。
「昭和天皇の即位のときの飾りは兄弟で担当して袖のボタンはわしがつくった」と、戦前金細工だった爺様が言っておったけれども、なにぶん子供のときにきいた爺さまの話しなのでその真実も今では知る由もない。袖のボタンってことは洋装だろうし、御列の儀かな?

先日閉幕した愛知トリエンナーレでは、その昭和天皇の写真と背中に和彫入れ墨を入れた尻出してるヌード写真とコラージュし、異国語のような民謡にのせてバーナーで燃やし、それを足で踏みつけて灰をにじるという映像作品の一部がネットで拡散して大炎上した。

全編を見もせずに批判するなという意見があり、20分ほどの全編がyoutubeでも公開されているというので、どれどれと思って見てみたら、断片で見たときよりもことさらにひどく、こりゃ良い子や年寄りにはみせられねぇや・・・と思った。

表現の不自由がテーマで、図録が焼却処分されたことなどエクスキューズされていたが屁理屈にもならない。

自由という権利の行使には結果が伴うし、その自由の行使の責任からも自由になるわけではない。中には憲法21条を持ち出して「表現の自由」を叫ぶ意見もあるが、ならばイの1番、憲法1条1項をなぜ読み飛ばすのだろうか。

「天皇は、日本国の象徴であり日本国民統合の象徴」とある。「俺はみとめねぇ!!」と反体制精神を見せるのもいいが、国と国民を全方位にまとめて腐さしたらそりゃ少なからず誰かが怒ったり悲しんだりするのは当たり前ではないか?

他人の譲れない部分の信義や信条を攻撃したのなら反撃をうける。私はあなたのことが嫌いですと言って、でも、それを伝えた相手の意見は聞くつもりもない。「私は傷ついた。」という感想を持つ人に、法では禁じられていないとか、これは表現の自由だといふことに意味あるか?

世の中には色々な考えを持つ人がいるし信義信条を異にする人もいる。極端なことを言えばソシオパス、反社会性パーソナリティ障害の人もいる。すべての人の価値観、意見や感想が一致することなどはありえない。神奈川のやまゆり園障害者施設殺傷事件の犯人は、もっと社会的賛同が得られるものだと持論を皆述したように猟奇殺人犯や大量殺人犯でさえも彼らなりの言い分はある。

例えば共産主義や社会主義のように貧富の差や身分差のすべてを無くしたいという政治的思想を持つひとにとって、天皇皇室は認めがたいものであろうし、他宗教を熱心に信望するものにとっても、無意識的忌避の対象となりうるだろう。

心情を言ったり伝えたりすることは自由だ。行動に移せば責任を問われる。それだけだ。
表現の自由はある。
正直、これらの表現の不自由展で展示された作品をいくらつくろうが、わたしは問題はないと思っている。他人に迷惑をかけない範囲で好きにやればよろしい。あぁ、そういう主張をもった人達の作品なのねと思うぐらいだ。今回の作品群のなかで言えばChim↑Pomの作品は被災地の若者たちの心の叫びを演出なしで捉えたのだとしたら、なかなかに捉えがたい一瞬を捉えたものだと思う。岡本太郎の明日への神話へのいたずらは、褒めることはできないが、あのタイミングであれをやれたことは評価している。

だが、一作家が物議を醸す作品を表現したところで、今回のように誰も彼もこんなにヘイトを稼いだりはしなかっただろう。

裏切られたパブリックトラスト

いかんだろうと思うのは、今回は意図を持って作品を選択し、集め、できるだけ多くの人に見せようと努力をし実行した主体に公が絡んでいたことに大きな原因がある。

トヨタのような日本有数の大企業や、地方自治体行政、県政、はたまた国が公金をぶっこんで、このようなアレンジをしたらそりゃ、ものすごいヘイトが集まる。

テレビなどの報道では平和の少女像(aka 慰安婦像)が騒動の原因として、名古屋市河村たかし市長の座り込みも「日本国民に問う!陛下への侮辱を許すのか!」と書かれたプラカードは映さない徹底ぶりだそうだが、そりゃそうだ。皇室がらみとなれば多く年寄りにはいまだ単なる敬慕の念以上のものを持つ人達も少なくない。国内放送法の放送コードに耐えれても、老人ばかりが見るテレビで年寄りの心臓が耐えられないだろう。

教義が異なれば、異教徒の首を切って衆目に晒す主張を正義とすることもあるし、略奪して持ってきた死体を博物館に並べたり、積んだ骨を模様に並び替えて入場料をとったりする。市中引き回しのうえ打首獄門とか、河原にさらし首とか、広場に集まってみんなでギロチンを見るために集まるとか、奴隷を競技場で死ぬまで戦わせるとか、相手の生首を互いのバスケット状のリングに入れる試合とか・・・あげればきりがないほど、国や時代が変わればいまでは信じられないようなことも実際におこなわれてきた。

大英博物館にいけば他国から略奪してきたミイラが並んでいる。これはいうなれば死体展示である。教会の屋内で何気なく足元をみると、そこは墓石の上だったりする。あちらでは寄付金を多く積むといいところに埋めてもらえる。壁にミイラ状態で置いてある人さえ居る。ヨーロッパのあちらこちらでは骸骨堂を見ることができるだろう。模様状に並べられた頭蓋骨、お花模様に並べた大腿骨や肩甲骨。綺麗でしょと言わんばかりの観光スポットだ。

現代から見れば信じられないが、当時の人たちはありえるものだと思っていることは多くある。
これが保っているのは文化というコードだ。
文化というコードを揃えるために、宗教がもたらした影響は大きい。
神道の場合は道徳形成というよりは、古神道が担ってきた役割を考えると農芸化学や建築などの技能伝播と評するのが近いような気がするが、それでも、広域の現代日本人の社会風習に通底するところに神社などの文化風習が根付いている。その神社の祭司のトップが天皇であることも間違いないなくて、検証委員会で自分はキリスト教徒で天皇にまつわる作品を作ったと言う作者(小泉明郎氏 空気#1)もいたけど、宗教を掲げて宗教をディスるって危うさしかないよね。

補助金

公金が手続きなしに止められたのは表現の自由に反するだの、補助金適正化法だの住民監査請求からの議会で追求していくべきだの賛否両方から揉めている。

だけど、商店街の活動費を得るために2/3助成5万円とか10万円の補助金で、申請書かいて、予算案つくって、計画書提出して、審査会でプレゼンして、結果報告書書いて、実績報告会で報告して、領収書とか様式整えて、交付の通知を得るまで一年かけたりしてるのを実務として長年担当していると、俺のこの時間別のことで働かせてくれぇぁしあああ!!と思う。企画の内容が実施されなかったら、補助金なんかもらえないし、なんか事務的にしくじれば、返えせ!とか言われることも実際聞く。

別の町会が年寄りばかりになってしまって、街路灯を維持できなくなったので辞めたいと自治体に相談したら、街路灯を作るときに出した補助金を返すことなるぞとか脅されてひーひー言いながら維持したりしているなんて話しも聞く。引くも地獄進むも地獄。
なのに予算総額12億のイベントのほうがこんないい加減なんだなと思うとやるせない。美術館をつくるっていう仕事に噛んでみたくて、いっちょがみして少し見聞きしてみたんだけど、学芸員さんとかの経済的にひーひー言ってる世界を垣間見るに、なんとも陰鬱とした気持ちになる。なんなんだねこれは。

他国の政府の影響力工作や、特定の政治的主義主張のため、他の宗教からの他の宗教への特定方向へのディスリスペクト。これをアートという文脈に乗っけて公金で運営するって、そりゃヘイト集めるわ。

俗習、文化という暗黙的な不文律の中で我々は生活をしている。
そんなことはやらないほうがいいよと、法令や条令で行動を予め明文化しなければいけない社会など歓迎したくない。

アートには奇抜さや過激さだけではなく、熟達した技芸を競うことも忘れないでほしい。今日の儀をみて細部まで凝らされた服飾や高御座などに使われている色の発色などの技の極みをみて、つくづくそう感じた。

参考

憲法1条1項は「天皇は、日本国の象徴であり日本国民統合の象徴であつて、この地位は、主権の存する日本国民の総意に基く。」
憲法21条1項は「集会、結社及び言論、出版その他一切の表現の自由は、これを保障する。」

あいトリ「燃やされた天皇の肖像」「放射能最高!」を批判するなら知っておきたいこと | 文春オンライン
bunshun.jp/articles/-/14837

「表現の不自由展」中止問題 検証委や出展作家らがフォーラムを開催(2019年9月21日)
www.youtube.com/watch?time_continue=2141&v=-p14VEv11T0