前回のつづき。
どこまでが町名でどこが番地名だ、みたいな、住所正規化の問題。
そんなものはコンバーターの精度を競うまでもなく、住所問題を扱うときには実はさしたる問題ではない。
半角カタカナを全角ひらがなに変化できる程度のDX人材がいないと駄目だとか、なければ人員と努力忍耐根性が必要だとか、まあいろいろあるけれども、前回書いたような基礎自治体、町名ぐらいまでの問題のほとんどは郵便番号辞書で解決することができるからだ。
パソコンなどの日本語入力IMEの郵便番号辞書をONにしていれば、郵便番号の数字をいれるだけで住所に変換することができる。
新たに作ったシステム導入の説明ついでに、日本語入力IMEに郵便番号辞書をONにするやり方を教えてあげたら、それが一番喜ばれたなんていう悲しい体験があるほど郵便番号辞書の利用はDX化においてまずなされるべきことだと思う。
だから、そんなものは住所問題地獄の一丁目でしかない。
なにせ郵便番号辞書という「正解」があるのだからそれにぶつければよいだけの問題だからだ。
ふたとおりの正しい住所
というわけで、地獄の二丁目の門をくぐろう。
日本の住所には、本籍地などで使われる「法務局(登記所)が定めた住所」と、郵便物などでつかわれる「住居表示に関する法律」により定められたふたとおりの住所というものがある。土地登記地獄のフタもあるのでこれも盛大に不満をぶちまけたいが、ここでは触れない。
◯丁目◯番地◯号みたいなのは、住居表示実施適用済みの住所。
昭和37年より前は、地番が住所として使われていた。当時は家も人口少なかったから地域名に連番を振るだけで住所が管理できた。昭和中期のベビーブーム、人口爆発により、ひとつの土地に複数家族が住み始め、連番の途中に新たに家が立ち、アパートが立ち、ビルが立ち、そして、地名+連番+枝番による住所管理は破綻を迎えた。
昭和37年、住居表示に関する法律が制定された。
1962年の法律なら、もういい加減一律悉皆に適用されていそうだが、実はそうでもない。
田舎などは古い地番がそのままつかっていたり、北海道みたいな非人口密集地だと、無番地みたいなエリアも多い。まあそれくらいは、実務の用であるので使いやすいほうを選択しても問題はない気もする。
だが、実際は人口が多く入れ替わりが多い新宿区ですらまだ未実施地区はこんなにもあるのだ。
新宿区住居表示実施図(PDF)
www.city.shinjuku.lg.jp/content/000280624.pdf
新宿だよ?
乗降車人数が世界最多の一日に350万人の新宿駅を擁する新宿区がだよ?
昭和37年の住所改正すらまだ途中なのよ。
しかも厄介なことに、住居表示実施適用済みでも古い地番の住所を使う人もいる。
新宿区からの注文で、住所が新宿区**町3番みたいな。
あー、書き漏れかな? 新宿みたいな人口多い地域でこれじゃ届かないだろと確認の問い合わせしたら、「うちはずっとこれで届いてきたから」と。
あえてそれを使う側にもこだわりもある。戦争で焼けなかった地域には残されたもののプライドも継いでいるわけさ。
郵便番号の地獄
古い番地が残る新宿の東側とは逆に、新宿区の西側、都庁がある超高層ビル群に変貌したエリアは、ひとつのビルに数百の会社、数千人がすし詰まっているので、ひとつのビルにいくつも郵便番号があったり、排他的論理和みたいな「次のビルを除く」表記になっていたりしてさらに混迷の様相をみせる。
丸の内とか、西新宿とかはこんなんばっかりだ。
〒163-0701 西新宿小田急第一生命ビル(1階)
〒163-0702 西新宿小田急第一生命ビル(2階)
フロアごとに郵便番号が異なる。
郵便番号データを信じすぎるとこういうデータとも戦わなければいけない。
郵便番号辞書を信頼しなければ始まらないが、信用してしまってはだめなのだ。
郵便番号が一つのエリアにユニークに紐づいていれば問題は少なかったのかもしれないが、現実はそれを許してはくれない。同じ町名なのに、郵便番号が分かれることもあれば、一つの郵便番号にも複数の異なる町名がぶら下がるなんてこともある。
厄介なことに、例えば「山田町」と「山田」みたいに似ているけれども非なるものが同じ郵便番号にぶら下がっていることも結構な出現頻度であるのだ。
拗音促音濁点半濁点地獄
オフコンや汎用機の時代に作られたシステムでは、小さい「ぁぃぅぇぉ」や「゛」「゜」が現在のシステムの扱いのそれとは異なることがある。顕著なのが自治体や郵便局、銀行など、80年代、90年代、システム化が早かった界隈だ。ATMなど制限された平面に物理の文字ボタンの入力に対応していたため、濁点などを含んだすべての読み仮名のボタンを配置することができなかったのだ。
うちは紅茶の茶葉さんなので会社名に「茶屋」という漢字が入る。
自分はこれを「ちゃや」のつもりでつけたのだけど、銀行口座をつくるときちょっとした手違いでふりがなが「ぢゃや」になってしまった。
日本郵便などは促音にも対応していない銀行の場合は、小さい「ャ」がなく、「ヂ」が「チ」+「゛」で表現される。つまり「ヂャヤ」は「チ゛ヤヤ」となるわけだ。
システム上(文字コード上も)、「ヂ」と「チ゛」はまったく別のものなのでこれを同じものと見做すためには、同じものですよと変換してやるか、それらを同じものとしてつないで定義してやらなければ検索することもできない。だから、システム化するときに「チ゛」は「ヂ」にしてデータベースに格納することにしよう。そんな風にして、全銀聯などはデータベース連携をすすめたのだろう。
なるほど、システムの更新や仕様策定のときにそう変換するルールを決めることは大切だ。
では、「ア゛」と入力された場合は?
そして運用をはじめて具体的な例外が次々に出てきて頭を抱えることになるのである。
「チ゛ヤヤ」と登録してしまったデータから「ヂャヤ」を復号することはできないのだ。
かくして「チ゛ヤヤ」のデータも正しいものとして生存し続けることになるわけだ。
タレントの中川翔子さんは、薔子(しょうこ)で命名しようとしたが「薔」が常用漢字でないために登録できず、しかも、促音の「ょ」が「よ」になってしまい本名「しようこ」で戸籍登録されてしまったそうである。あ、ご結婚おめでとうございます!
そんな感じに、名前は役所届け出のときに使えない漢字だの、つかえない読みだのと拒否されシステムにあわせて、担当者の胸先三寸で運用され、そして「正しい」データが増えていくのである。
法務局の屋号はチャヤになったのに銀行はヂヤヤだ。果たして我が社の正しい読み方とはなんぞや?
住所には宛名も含むので当然だが、同じような問題が住所にもおこる。
日本郵便の郵便番号辞書CSVのダウンロードページに行くと面白いものが今でも見れる。
読み仮名データの促音・拗音を小書きで表記しないものと、小書きで表記するものがある。
例:ホツカイドウ
例:ホッカイドウ
何故2023年にもなって「ホツカイドウ」のデータを残しておく必要があるのか?
名寄して変換できるじゃないか!というモノのみ石を投げよ。
マサカリが投げ返されることであろうぞ。
このペースで書いていくとあと2回ぶんぐらい続きそう。
他参考
IMIコンポーネントツール
info.gbiz.go.jp/tools/imi_tools/
(前回の投稿)明るい日本の住所表記に安心してくださいはできますか
kuippa.com/blog/?p=2228