明るい日本の住所表記に安心してくださいはできますか


久しぶりにマサカリが飛んでくるネタらしい。
ネットショップを20年近くやってると、うちみたいな弱小零細でも何万何十万と住所処理を処理することになり言わずには居られない鬱憤もたまる。
つくづく日本語のシステム、データベース化は難しい。

英語であればアルファベット24文字と大文字小文字ぐらいなのでUpper()なりlower()なりでどちらかに統一すれば検索できる。
日本語は漢字、ひらがな、カタカナぐらい?
漢字は一般的なコンピューターシステムでサポートされているJIS系の第1~4に補助漢字までいれてだいたい約16,000字ぐらいが一般的なフォントで対応されている。
ということは、24文字を1万6千文字に増やした分だけ頑張らなきゃいけないのか! それは大変だね!!

・・・なんていう枠には収まらない。

だからこそ、地獄のフタを一度でも開けた人たちはマサカリを投げつけるのである。完全に理解した曲線のバカ山の能天気さは絶望の谷底からみると眩しすぎるのだ。
地獄に落ちてしまった亡者が手をのばすほどには。

16000文字÷24文字=666.66666666666倍

そこは決して開けてはいけない地獄のフタなのである。

分かち書きカカシ先生は脳みそを求めて旅に出る地獄

ちょいと前に話題になった動画に「変なAI」というのがあった。

雨穴さんの【科学ホラーミステリー】変なAI
www.youtube.com/watch?v=NAv0aScEQm0

このホラーミステリー的な動画では作中にAI「kakashi」というのが出てくる。カカシと聞くと、インターネット老人会の人たちはすこしざわざわする。

古い話し。

kakashi、実は2000年の頃に実在していて、かつては全文検索エンジンをつくるのに、kakashiやらnamazuやらをつかって分かち書き、インデックス化をしている時代があった。

分かち書きというのは、英語の場合は単語と単語の間がスペースで区切られているため、単語で検索することができるが、「日本語 は 文中 に 区切り が ない」ので、こんな感じ分解してやる。

チャセンやらメカブやら形態素解析が一般化する前までは突っ込まれたテキストをどこで区切るのかは実に大問題で、無計画な全探索などをおこなってしまうと一生かけても応答しないぐずのろ検索エンジンになってしまうのだ。そんな風に予め持っている手持ちの辞書と突き合わせて文章を細切れにして索引をつけておく必要があった。

愛知海部飛島新田竹之郷ヨタレ南ノ割

これは日本一長い住所から、あえて郡とか字の区切り文字表記を抜いたものであるが、日本人の何人がこれを正確に分かち書くことができるだろうか?線でも引いて区切ってみてほしい。

正解はこれ。

愛知県 海部郡 飛島村 大字飛島新田 字竹之郷 ヨタレ南ノ割

人間に難しいことはAIにも難しい。
2023年現在、だいぶ進化したとは言え、ChatGPTに日本語の文字数を尋ねるとおかしな答えが帰ってくることがある。夏を季語に俳句を読んでもらった。

2023年なうてのAI、ChatGPTさんは俳句を読めても、それが何文字ですか?みたいな人間には簡単に見える質問には満足に答えることができないことがある。ここに日本語の難しさがある。

もしかしたらこれは、GPTの学習が「日本語」ではなく、文字コードのバイナリで線形学習していることによる弊害かもしれない。存在しない「視覴」なる単語を使いだしたという騒動を見ているとその確信を強くするが、マルチモーダルを目指す過程に今この瞬間だけ見ることができるマルチバイト言語に現れた時代の徒花と考えれば、音数え 趣深し 梅雨の藍。

これはおもしろい。UTF-8とChatGPTのトークン:
視覴 e8 a6 96 e8 a6 b4 |25038|244|25038|112|
視覚 e8 a6 96 e8 a6 9a |25038|244|25038|248|
視聴 e8 a6 96 e8 81 b4 |25038|244|36735|112|
「覚」の前半と「聴」の後半がくっついたみたい t.co/oSpUfNxsUN— Haruhiko Okumura (@h_okumura) June 8, 2023

ちょっとだけ解説すると、文字コードのUTF-8のバイナリはリバースにスタックされてるので日本語化するときは読み込み順を逆にしてからエンコードしてやらにゃならない。U+07FFみたいなんがバイナリ読み込みするとFF07みたいに拾われてくるので07FFに結合してUTF-8でデコードする感じ。これはUTF-8が1-4バイトの可変長であることに多分由来しているんだろうけど詳しくは知らんし自分には荷が重いので、ここではそんな地獄もあるよと軽く触れる程度で終える。しらんけど。

地名の読み方無限地獄

日本語を分かち書くことはただでさえ難しいのに、さらに厄介なことに、固有名詞、地名はさらに輪をかけてそれを困難にする。

地名をなんと読むか、読めない地名をどこで区切るかは母語を日本語にする人にもとても難しい問題だ。
そのため表現も揺らぎやすい。
やがて同じ読みでもいくつも書き方が存在するようになる。

山手、山の手、山ノ手。

ひとつの書き方にいくつも読み方、ひとつの読み方に複数の書き方が存在するようになる。
山手と書いて、やまのてと読んだり、やまてと読んだり、どちらでも正解だったり、読み方が決まっていたり、あるいはどちらとも間違いだったりする。会社によって自治体によって運送会社によって正解が変わる。東京にも山の手はあるし神奈川にも神戸にもある。

これに方言も混じれば読み方がさらに増え、さらに書き方が増える。
こんな風にして地名は発散する。

昨年ニホンゴムズイという、アプリを習作がてら作った。
歴史的な経緯(?)から千葉県にはとてもむずかしい難読地名が多いのだけど、それを4択クイズにしただけのそんなにおもしろくもないゲームだ。

※ 今はAppleデベロッパライセンス切れ(?)でダウンロードできないけど、一応リンクだけ残しておく
apps.apple.com/jp/app/%E3%83%8B%E3%83%9B%E3%83%B3%E3%82%B4%E3%83%A0%E3%82%BA%E3%82%A4/id1608182925

我孫子市、富津市、酒々井町、東庄町

匝瑳市、鋸南町、八街市

読めるだろうか?

正解は・・・

我孫子市(あびこし)、富津市(ふっつし)、酒々井町(しすいまち)、東庄町(とうのしょうまち)、匝瑳市(そうさし)、鋸南町(きょなんまち)、八街市(やちまたし)

千葉県の基礎自治体だけをあげつらっても、ごらんの難読さ加減。

ちなみ、今ちらっとゲームのデータを見てきたのだけど、千葉県では地名に使われる漢字は常用漢字うち737文字しか使われておらず、1538が不使用となっている。逆に139文字は常用漢字以外の漢字が使われていた。

同表記なのに別の場所という例もある。

181-0016 東京都三鷹市深大寺と182-0012 東京都調布市深大寺は数キロと絶妙に離れているが連続した一体エリアではない。


調布深大寺にある植物公園は神代寺植物公園だの神代高校だの、神代とする別の漢字表記もある。
深大寺がお寺の名前に由来しいて、神代は神代村に由来しているわけだが、こんな風にすこしの区別付けのために漢字表記をあえて変えた。そしてその変更にはそれなりのこだわりがあったので放棄するわけにはいかない。
三鷹の深大寺と調布の深大寺はまだ自治体が別だからよかった。だが、もし合併したら?

630-8016 奈良県奈良市南新町(みなみしんちょう)(52~212番地)
630-8356 奈良県奈良市南新町(みなみしんまち)(1~32番地)

950-3323 新潟県新潟市北区東栄町(とうえいちょう)
950-3104 新潟県新潟市北区東栄町(ひがしさかえまち)

673-0012 兵庫県明石市和坂(わさか)
673-0012 兵庫県明石市和坂(かにがさか)

住所については、例外の枚挙には暇がないのである。
そして永遠に地名は増殖する。

なんかまだまだまだまだいい足りないが、長くなったのであと2回ぐらいはつづく

参考

とにかく日本の住所のヤバさをもっと知るべきだと思います
note.com/inuro/n/n7ec7cf15cf9c

住居表示に関する法律
elaws.e-gov.go.jp/document?lawid=337AC0000000119

愛知県海部郡飛島村大字飛島新田字竹之郷ヨタレ南ノ割は本当に日本一長い地名か?
dailyportalz.jp/kiji/140708164564


磯焼けと海苔の不作からすける除草剤の残効


有明海だの瀬戸内海だの、千葉だの各地で海苔が不作であるそうだ。わかめや昆布も大変で、海の砂漠化、”磯焼け”なんてワードもよく聞くようになってきた。

海中カメラで調査したらチヌ(クロダイ)が食い荒らしてたとか、アカモクを食い荒らしているのはイスズミだとかはたまたウニが全部食べちゃうとか。はたまた温暖化による海水温の変化が原因だなんだと騒がれている。

あのー・・・もしかして除草剤じゃね??

魚は何故減った?

先日、「魚はなぜ減った?見えない真犯人を追う (東大教授が世界に示した衝撃のエビデンス)」なる本を読んだ。

東京大学大学院新領域創成科学研究科 山室真澄教授
陸水学、沿岸海洋学、生物地球化学

この本を買ったのはこの講演動画が面白かったからだ。

「魚はなぜ減った?~見えない真犯人を追う」
www.youtube.com/watch?v=gDSlR1ZEJmE

毒舌なので講演のほうがおもしろい。本のほうはデータや引用論文が豊富。

ざーーくり要約

山室さんは閉鎖水系、汽水域の研究をしていて、30年にわたってシジミと寒さに負けずに頑張っている松岡修造で有名な島根県、宍道湖(しんじこ)を中心に調査されていた。

ネオニコチノイド系殺虫剤が日本国内で許可された1992年から、うなぎ、ワカサギ、シラウオの漁獲量の激減とともに、底生生物、オオユスリカのような節足動物、ゴカイのような環形動物、エビのような甲殻類が減っていることを見つけたという。

残留濃度は人間や魚には影響がないようにデザインされているので魚が死んで浮かぶようなことはないので気がつきにくいが、無脊椎動物にとってはそれらは十分に致命的な濃度だという。まあそのための殺虫剤ですから。餌がなくなりゃそりゃ魚も減るよねって話。

で、本の内容なのでここでは踏み込まないが、いろんなエビデンスが載ってる。海老のエビデンス!(ここでぐらいしか使えないから許して欲しい。おじさんなのだ。)

様々なデータをあげて、富栄養化も貧栄養化でも、溶存無機窒素量、化学的酸素要求量(COD)でも、湾岸改変でも農地基盤整備でも、はたまた水温変化でもねぇんじゃねぇかってさ。

で、ここからは素人の推論と仮説

長年みているyoutubeチャンネルに、ただひたすら海に潜ってただウニをわりつづけているチャンネルがある。ただ割れていくウニとそれをついばむ魚を見るのに理由が必要な人は見ることはないだろう。

大成功を収めたアカモク育成のラストにまさかの事態が起こる【アカモク育成最終回】

何年も前からただウニを叩いていたのだけど、最近とうとう砂場でのアカモクという海藻の繁茂に成功しいて、逆になんで?と思った。え、磯場のときは駄目だったのに砂場では成功できるん?っと。逆になんでなん??と。

ちゃんねる主は食欲旺盛なイスズミ(お魚の名前)の回遊路から外れたからではないからと考えているようだけれども・・・。自分の中ではあまり腑に落ちしなかった。

ヤギがいる畑で作物を育てるのは難しいが、ヤギが居ないところなら育つ。

じつに正論。

しかし、どちらかといえば海の中で育つ海藻は雑草が持つ恒常性と均衡に近い。
雑草は管理して繁殖させようとするのは難しいがヤギが食べればなくなる。ヤギがいなければ増える。

このときその地域のヤギの頭数は雑草の繁茂力と同じかそれ以下で均衡するはずである。
釣り合っている状態のことを平衡に達したという。

繁茂力が食欲が下回るとき、それはヤギにとっての飢饉なので、ヤギが移動不能(閉鎖系)である場合はヤギは減り、食料の供給率に達するまで頭数を減らすことになるだろう。
ヤギが移動可能(開放系)である場合、その地域の雑草を食い尽くしたとき移動することになるだろう。

捕食、被食関係で均衡が破れるケースは捕食側の変化、被食側の変化によるものである。
捕食者側に考えられるケースは異様繁殖などによる要求量の増大で、被食者側の場合はなんらかの理由による増殖や成長率の鈍化が考えられる。

開放系ともいえる海の中で、捕食側の食害で食い尽くされて絶えるなんてことがあろうだろうか?
バッタの蝗害みたいな群生発生と高度回遊がおきているわけでもないのに?

そして、最近それがごく短い期間でそれが全部なくなったというのを見て、やっぱり仮説を強くした。

あ、やっぱこの時期? 海藻にも除草剤の残留効果が原因じゃないのかなと。

環境水中の残留除草剤

前述の本によれば、河川、水道水中における残留除草剤の濃度は田植えが盛んな地域では5月1週目が最高濃度となっているデータがあった。

除草剤のクロルニトロフェン(CNP)は胆のうがんに繋がり、人体にも影響があるということで農薬取締法改正により改善したのかその後はよくわからんが、現代も環境水中の除草剤の濃度は5月の上旬が一番高いであろうことは容易に推測できる。

除草剤はその後も進化し、人間にとってはより安全に、そして雑草にとってはより過酷に。自然界で分解するのに効果日時も持続するようになった。

ここに日本固有の特殊事情が加わる。
日本では畑だけでなく水田が存在する。田植えは一年に一度で地域で同じ品種をつくるため、同じような時期に一気に作付けをおこなう。都会に出稼ぎにでたやつも戻って実家を手伝えというゴールデンウィークというやつだ。
結果、水田に撒かれた水溶性の除草剤や殺虫剤はそのまま河川にごく短期間高濃度で流出し海に出る。

水田に撒かれる除草剤は、初期、中期、後期と一発処理剤に分かれるそうだが、田植え後に撒かれる初期一発剤は除草剤のなかでも自然分解までの期間が長く処理後30~50日と残効期間が続く。

そりゃ30日もあれば海にも出るわな。
海に出ても除草剤の効果は損なわれない。
水田に撒く除草剤は、稲を枯らさぬように沈水植物にも効くように作られたものなのだから。

「宍道湖における沈水植物大量発生前後の水質 」

www.jstage.jst.go.jp/article/rikusui/75/2/75_99/_pdf

2006年5月から「食品中の残留する農薬等の基準に係るポジティブリスト制度」が施行されたことにより、それまで検出されたらアウトなブラックリスト方式であった残留農薬基準がこの物質がこれ以下ならいいよというホワイトリスト方式に変更された。

その結果、宍道湖のシジミからホワイトリストにない除草剤が検出されたことから、周辺農家に除草剤の使用量や使用方法の働きかけがなされ除草剤の残留濃度に大きな変化が出た。で、宍道湖の沈水植物の大量発生に繋がる。

流れ込む除草剤が減ったら藻が昔のように増えた。
流れ込む除草剤が増えれば海藻が減るというエビデンスは今のところない。

なにせ調査がないのだから。
だからこれはただの素人の仮説にすぎない。

環境水のモニタリング

残念ながら日本では環境水中の濃度に関する研究がほとんどなされていないそうだ。
先の本の中では1999までの論文で殺虫剤であるネオニコチノイドの環境水中濃度についての調査は一件もなかったと嘆かれていたが、2023現在ciniiを検索すると、近年増えてきているようなので、将来に期待である。
自分みたいなノラにも読めるオープン論文はないので、指を加えてリストを眺めるだけだ。

ネオニコチノイドやその他残留農薬は水溶性なので堆積物からの過去の調査を行うこともできないそうだ。
さらに残念なことに日本の環境モニタリングでは降雨による影響がないよう濁水を採取しないことになっているそうで、田面、水田土壌、化学物質の影響が検出されにくいのだという。されにくいというかできないんじゃ?

そりゃ駄目だよね。
東京オリンピックのときにトライアスロン会場の大腸菌が話題になったが、日本の下水道は多くがいまだ雨水合流だ。特に戦後復興を急いだ東京23区では8割が未だに合流式下水道である。
昨日の大雨で目黒川がクサイとTwitterで話題になっていたがあたりまえだ。それ本当に下水だもん。

クリックして09gouryu-kubu.pdfにアクセス

雨の量が一定レベルを超えると、下水処理施設の限界を超えるため、トイレットペーパーとかそのままに東京湾に放出される。神田川とか目黒川とか渋谷川とかのガンジス川モードだ。

そりゃ、そんな濁水をモニタリングしたら、いろんな環境基準に触れて一発アウト。知恵を絞って考えたのだろう。データがなければ大丈夫ンゴ!!って。

濁水のデータもモニタリングするべきだとは思うけど、そのお金や対策費はどうするんだってお話しになるので、みんなそっと蓋を閉じるのかもしれないね。箱のフタを開けて観測しなければ猫は死んでいるか生きているか確定しない。そのシステムは今、動いてるんだから触るんじゃねぇってね。

豊洲市場の排水ピットに長靴でばちゃばちゃ入って、ジャムの瓶に濁水くんで、アルカリ性ですだの、環境基準の何倍も出ました!!とかをやれというわけではないが、なんでこう極端から極端しかねぇんだろ。
データが貯まればいいとおもうし、濁水のデータもとったほうがいいよね。
研究者に予算つけてあげてとおもうのである。

頑張れ研究者、ネバー ギブアップ

参考・引用元

海の水質向上で神戸の「養殖ノリ」が激減? 収穫量は20年前の2割減 原因はチヌの増加か…
www.youtube.com/watch?v=S6ROO82UNgI

minorasu.basf.co.jp/80228

ci.nii.ac.jp/author/DA15881523

www.jstage.jst.go.jp/article/rikusui/75/2/75_99/_pdf


ブログ更新再開します


自分らしくない書き方ですが書いたのはbardさんなので事前に自白しておきます。

ツイッターアカウントが凍結されました。

ツイッターアカウントを作り始めて15年ほどになります。その間、様々なことをツイートしてきました。時には自分の考えを、時には自分の経験を、時には自分の感想を。

しかし、先日、突然、ツイッターアカウントが凍結されました。凍結の理由はわかりません。違反行為をしていないと確信していますが、Twitterの判断に従うしかありません。

ツイッターアカウントが凍結されたことで、私は潮時を感じています。ツイッターは、15年間、私にとって大切なツールでした。しかし、今は、ツイッターに頼り切るのはよくないと思っています。

私は、5年ぶりにマストドンにログインしました。しかし、誰もいません。マストドンは、オープンソースのソーシャルメディアです。ツイッターとは違う魅力があると思っています。しかし、まだ、ユーザー数が少ないのが現状です。

ひとつのSNSに頼り切るのはよくないと思っています。しかし、乗り換え先もないので、しばらく様子見をしたいと思います。

しかたないので、ブログに戻って独り言に戻ろうと思います。ブログは、10年ほど前に始めました。ツイッターよりも、自分の考えを自由に書くことができます。

ツイッターアカウントが凍結されたことは、私にとって大きなショックでした。しかし、この経験をきっかけに、自分の考えをもっと自由に表現できるようになりたいと思っています。

bard.google.com/

bardに投げた内容は下記

以下の内容でブログを書いてください
twitterアカウント凍結をくらった
twitterは15年ぐらいアカウントもっている
凍結に心当たりはない
もしかしたらtwitterができた頃に作った他のアカウントが悪さをしたのかも?
潮時を感じている
マストドンに5年ぶりにログインしたが誰も居なかった
ひとつのSNSに頼り切るのもよくないが乗り換え先もないのでしばらく様子見
しかたないのでブログに戻って独り言に戻ろうとおもう

ちょいとしたコメント

このブログ10年以上前なんだけど、どっから10年ってもってきたんだろ。ま、いいか。
ショックでしたとか適当に感情を盛っているところが面白いね。
一応、マストドンのアカウントを貼っておきます。使わないと思うけど。
mstdn.jp/@kuippa

ちなみにtwitterのアカウント凍結は異議申し立てしたところ1~2日で凍結は解除されてはいます。

前も一回凍結されたことがあるけど、そのときはなんか空間除菌かなんかを謳う怪しい商品を真っ向批判したのが原因だったので心当たりはあるが納得はしてないって感じ。多分複数捨てアカウントから通報しまくったんだろうね。今回は凍結回避なので心当たりないというか、もしかしたらアカウント乗っ取り失敗した系の弊害なのかもしれんが。か、あれかはてブかなんかのtwitter API経由の投稿が回避と見做されたのかな? わからん。

というわけで、最近数ヶ月に一度の投稿もしてなかったけど、ちょっとブログで更新していくようにします。

ブログのタイトルも変えました

このブログを立ち上げたのは311の頃
地震のデータと潮汐の相関をグラフ化したりしていた
その後covid-19で同じようなインパクトがあったので311を19に変更
今回ChatGPTなどの生成系AIに同程度のインパクトを感じたので変更

これもAIに文章化してもらおうとリード化したけど長くなるだけなので以上!