森友関係文章のPDFを文章にして比較する方法


NHKがまとめページにて変更後と変更前PDFを公開した。

www3.nhk.or.jp/news/special/moritomo_kakikae/

北朝鮮関連とか、まとめページをつくってくれるようになった。NHKのWEBの中の人がんばってるよね。

 

さて、森友関係については、いろいろ言いたいこともあるのだけど、まあ、いろいろな部分はおいておいて、無駄な労力をかける人たちが出る前に、ああ、既に一日経過しているので時遅しかもしれないけれども、変更前と変更後の文章の比較をおこなう方法を案内しておいたほうがよいように感じた。

 

 

画像やPDFのテキスト化

EvernoteやgoogleDriveを使えば自動でOCRしてくれるようになった。いい時代である。
電子データを印刷して、わざわざ汚れたスキャナで取り込んで作ったようなデータでも、再電子テキスト化してくれるのである。

やり方は簡単、ぶっこんで、開くだけである。一応やり方を書いておく。

アップロードして右クリック、Googleドキュメントで開く。以上だ。

こんな感じに上に画像。下にテキストが出る。

 

 

くそ汚れた画像のテキスト化

今回のような2ページ印刷されてたり、変なところに変な記号がはいっていたりすると、文字認識アルゴリズムがうまく動かないので、ページのスクリーンショットをとって画像にしてからOCRをかけることにする
スクショは別に何使ってもいいけれども、winの場合はGreen shotをつかっているので一応案内しておく。

www.vector.co.jp/soft/winnt/art/se505369.html

問題文書。いきなり1つ目の文章がくそ汚い。
汚すぎるのでPDFを拡大してから画像化する。

 

ここまで汚れていると流出経路を特定するために、わざと汚しているのかもしれないけれども、酷いね。省庁って、もしかして、わら半紙にガリ版刷りなのかなと思う程度に酷い。

ここまで汚いのは流石のgoogleさんも想定していないので、手前で画像的な加工が必要である。こういう汚れのときは画像編集ソフトでトーンカーブをつかおう。photoshopを使ってもいいが、うちみたいな貧乏人は無料のGIMPというフリーの画像編集ソフトもあるのでそれで案内する。photoshopでも編集方法は一緒ね。

 

こういう汚れ系はトーンカーブを右上を上に、左下を下にすれば結構落とすことができる。線画とかからデジタル化したいときにつこーたらいいよ。ただ、今回みたいに文字の濃さと同じぐらい汚いと無理だね。ほんとなんだろうFAX?

 

でも、ま、ひと手間でこれくらいにはなる。

ちっとも読み取れなかったのが、まああとは文章修正ぐらいでなんとかなる程度には読み取れるようにはなった。

 

 

変更部分比較

あとはテキスト化した文章を比較すればいい。diffとかcompareって呼ばれる機能。んー。atomのコンペアのプラグイン入れてとかいうのは説明するのがしんどいので、懐かしのDFとかでどうだろう。

www.vector.co.jp/soft/win95/util/se113286.html

 

変更されている行を色違いで出力してくれる。

・・・。これじゃわかり難い?

 

wordの変更履歴

まあこんな事をしなくても、文章を作成した元の電子ファイルが残ってりゃ、変更履歴ボタンを押されていれば、いつ誰がどこを更新したかなんて残っているんだけどね。eガバメントってなんじゃったんだろうね。

 

コード管理システム

誰かがgithubにあげればいいじゃないと言っていたが、githubのようなコード管理システムをつかえば、今回のような誰が、いつ、なにを改変したんだかわからないようなことで混迷することもなかっただろう。プログラムはコードと呼ばれるが、法律もコードと呼ばれる。公文書はなんだかわからないけど。人間の法律はコンパイル通りそうもないよね。

 

震災直後、写真に写り込んだ避難所の名簿を文字起こしするとかいう、ソーシャルな働きは価値があったと思う。今回も、PDFで公開された情報をgithubで市民団体とかが、登録したりして可読性を高めるとかいう動きはあってもいいかもしれない、が、そもそもが、無駄なことだと考えると残念でしかない。オープンデータとして提供されていれば、とか、もっといろいろできることもあろうに残念だ。

 

ドイツ連邦の法律がGitHubで管理されるようになったってお話しは、もうずいぶんと昔のニュースであったように思う。gitとかで管理されていれば履歴を追うことも、どこが変更されているかも、誰が変更したかも追うことができる。

github.com/bundestag/gesetze

右上のコミットログに表示されるように文章のフィンガープリント(指紋の意味ね)もあるので、誰かが悪意をもって差し替えるには、ちと困難なようになっている。文章の内容をシードにMD5などで暗号化(ハッシュ化)をおこなった結果なので、内容を書き換えると結果の暗号化も変わってしまうわけだ。

これらの暗号は文章を種に生成した不可逆なもので、暗号を複号しても文章にはできないが、同じ文章からは同じ暗号ができあがる。ま、言ってみれば、ある文章を15文字おきに拾い読みしたら同じ文章からは同じ文字列ができあがるよねみたいなもの。するってぇと、つまり、内容を秘匿にしたままフィンガープリントだけは公開しても、いいよねっていう運用ができる。

 

ちなみにこのようなテクノロジーは15~6年も昔からある技術である。ハッシュ値をさらにシードにしてチェーン化すれば、内容の連続性担保できるし、さらにそれを公開台帳に記しておけばいいんじゃねというブロックチェーン技術は、こういうところに根ざしている。ブロックチェーンだって技術的には7~8年ぐらい前のお話しだ。

話しがそれた。

で、今の技術で何ができるか。

電子化して誰かがつくった書類をわざわざ印刷して、押印して、さらに電子化するとかいうお役所仕事がなされている。で、なにかがおきたときにはどこにあるんだかわからないとか、俺の原本は108種類あるぞ!的なことがなされるわけだし、検証も労力がかかって無駄である。無駄である。無駄である。無駄である。無駄無駄無駄ァァアアァァアアアア!

 

無用の用と呼ぶには、あまりにも。やらなくてもいい仕事をやって仕事を増やす。よくないよね。

誰かの仕事がヘリますように。


あれから7年化石燃料の輸入額はどうなったか


原発を停止すると化石燃料の輸入額が増大して大変な貿易赤字になると言われていたことを覚えている人は多いとおもう。あれから7年。どうなったか。

エネルギー調査会などで議論ベースにあった資料によると、化石燃料の輸入額は27兆にまで達し、うなぎのぼりなグラフになっている。10兆円も増えるしもう大変!みたいな。

このグラフの元になっている財務省貿易統計から鉱物性燃料の輸入額のその後の推移をみてみよう。

白いところが鉱物性燃料の年度推移。うぇぃ。半分になっちゃってるよ。

経年データを追いたいので、統計局から2000年~ 2018年の元データにあたる。
データをExcelにおとしてグラフ化した。
いっとき、28兆近くまで膨らんだ鉱物性燃料の輸入額は、18兆、12兆、16兆。

 

 

 

感想

なんかグラフだけみると、東日本大震災とは関係なさそうな要因っぽよね。

まあ、こんなもんか。

 

ここ数日、財務省の文章書き換えどうこうが話題だけど。しょーもないなーと思う。統計が嘘をつくのではなく統計で嘘をつくとはよく言ったものだが、判断の材料となるものに恣意性を混ぜ込ませると、ろくなことないよね。
まー、よくない。

 

にしても、鉱物性燃料の変化原因はなんだろうね。
シェールガス革命がらみかなっと貿易統計ながめてたら、EUからの液化天然ガスが300%とかになってるのとかがあったので、EU方面もからんでるようだ。

 

 

原発について

車みたいな比較的単純な機械でさえ、まったく乗らないような状態で動態保存ってすげぇ難しいよね。原発なんて、動かさなくても維持コストばかみたいにかかるんだから、可動年数若いやつは動かせばいいじゃないとか思う。

ただ、伊方原発お前は駄目だ。

東南海地震が遠からずってタイミングに中央構造線の前上、しかも豊後水道側にある佐田岬半島からって、ここまでくるとわざとなんじゃないかなと思う。

10年前の冷蔵庫が、消費電力は1/3で、収納容積が増えているみたいな話しがあったけれども、短期の利潤のせいで、長期的に不合理な判断をするようなことはしちゃならねぇと思う。

まず、政治、単年度予算で動くってのをやめてもうちょっと計画的になってください。

今日は311、みなさまの未来も健やかならんことを。

 

 

参考資料

品目別輸入額の推移(年ベース)
www.customs.go.jp/toukei/suii/html/data/y2.pdf

 

1.我が国のエネルギー需給構造が抱える課題 化石燃料への依存と貿易赤字
総合資源エネルギー調査会 原子力小委員会11回会合 参考資料2
www.meti.go.jp/committee/sougouenergy/denkijigyou/genshiryoku/pdf/011_s02_00.pdf

 

普通貿易統計 2018年1月
www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00350300&tstat=000001013141&cycle=1&year=20180&month=11010301&tclass1=000001013201&tclass2=000001013203&result_back=1

2018年1月分 概況品別統計品目表 (輸入 1月:輸入9桁速報) “3” 鉱物性燃料
・・・品目をコード表示ででCSV提供ってひどいよね。。。

 

集計項目 22 鉱物性燃料 年別・月別 2000年~ 2018年(昇順)
www.customs.go.jp/toukei/srch/index.htm?M=27&P=1,,,5,22,1,,,,,,2000,2018,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,20

 


くそドキュメント管理と公文書


森友学園の決済文書の問題がひどすぎる。なんてちょろ松な。

 

 

たのむから、やってくれ

  • 文書管理は紙と印鑑をやめて電磁的記録法に移行して
  • 縦割りで文書管理しないで、文書管理だけの組織を内閣官房とかにおきなよ
  • それらを管理監督する行政監察官をおいて指導しなよ
  • 行革推進本部は神エクセルだけでなく職務能力のほうでオフィシャル・ディベロップメントもしないと
  • せめて[変更履歴の記録]ボタンをポチッって記録するようにして
  • 印刷物には出力日や文書管理番号を印刷しよう

 

やれたらいいな

  • 決済印(決済レベル)ごとに異なるレポジトリーサーバーにプッシュされるようにする
  • 公開文章とかはgithubとかにもぷっしゅ&公知
  • 正副あわせて全国3ヵ所ぐらいにミラーリング
  • microsoft wordとかが印刷するときに自身のMD5とかのフィンガープリントを表示させらたら楽なんだけどね=md5(self)みたいなの。

 

まだIT土方だった若かりし頃、くそが腐って手も付けられなくなったような現場に投下されたことがある。というか、最初からきっちりやれてればトラブらないので、手を引っ張られるのはどうしても、どうにもならくなってから呼ばれるパターン。大抵のトラブってる現場っていうのは、巨神兵を率いて薙ぎ払ってから作り直したほうが早いのだけれども、なかにはどうしてもクソの上に、クソを建てることを強いられる現場もある。

 

・・・。
言葉がすさんでよくないね。

 

で、そういう軟弱地盤の上に何かを積み上げなきゃいけないとき、必要なのはまずは論拠となる文章ドキュメントなどの固定化である。

そう!システムをつくるのなんて湖の上を歩くことぐらい簡単なことさ、それが凍っていさえすればね!!
ってことで、たいていの駄目な原因は言ってることがコロコロ変わる人がハンドリングしてたりすることによるんだけど、まず、こういう奴の心臓に杭を刺してぴくりとも動かないようにしなければいけないわけだ。

 

そこで、思い出すのが、超昔、父親の本棚でみつけた品質管理工学だかの本。
「古いドキュメントを持っている奴がいないように古いドキュメントは回収しなさい」というような仕様の周知徹底と再確認が書いてあった。そだねー。そかもねー。

 

まあ、回収するのは手間なので、バージョンを表紙に印刷するとかそういう事をしていたが、横着な人が雑じってたりすると古い仕様書を印刷してそのまま持つようなのも居て、そのうちヘッダー全部にdate()とかnow()とかを矯正出力させるようにした。

こうすることで、担当プログラマー間で齟齬が生まれたりして結合のときインターフェイスがずれてたりした場合、責任の所在がはっきりさせられるので楔を打ち込むことができる。こういうのはフールプルーフじゃないとならない。

 

 

昨今、国会で話題になっている森友学園の決済文書の取扱をみてると頭を抱える。
まるで20年以上前のVisual sorce safeもsubversionも、ましてやgitもなんてない時代というか、4000年前のシュメール人の円筒印章の時代だって、もうちょっとましな文書管理してたぞと、泣きたくなる。

 

報道によると、国会議員に開示され公文書として記録管理されているものとは異なる別のバージョンの公文書があるそうだ。一部報道機関側が確認し、さらに一部のひとが「私の持っている公文書は3パターンあるぞ!」とかいっているのが現状である。ネッシー状態で、ネッシーの写真を持っているひとがいて責め立てている。なんだそれ。ほんと、なんだそれ。

 

 

決済印が押されている文書が少なくとも一通以上はあって、それ意外のバージョンが存在しないことを証明しろと言っているわけだけれども、通常であれば一笑に伏すぐらいのこれをすぐ証明できないのであれば管理されてない状態といっていいと思う。役職ごとに押される印鑑のなんとも意味のないことよ。

有印公文書であるのであろうから、決済されたのちに改竄されたのが真実だとすれば、すくなくともいくつかの明確な犯罪行為がなされているし、それらの報道などが虚偽で国会が空転しているのならば、さらに深刻な事態だ。ことさらに深刻なのは、改竄がなかったとも、差し替えられてはいないとも証明する手段がないということだ。

 

内容の違う遺言状が3通でてきたぞ状態。公証人とか弁護士とかをいれたり、複数枚にまたがるものには割り印をしたりして、最終のものがどれでという、正当性を保障する。行政文書の場合は、公文書等の管理に関する法律で管理されているはずである。電磁的記録なんちゃらについても法律はあったように思う。

が、これが機能していないということだ。

おまえらまだ紙で文書管理しているのかとか、いいたいことはいっぱいあるけれども、いまとりあげられているのは政治だけの問題じゃない。内閣総辞職だとかそういうことじゃなく、行政府への不振につながる。登記簿謄本とか、戸籍とか、文章あるけれども、書き換えされてもわかんねぇぜーわじゃはーw ってレベルで、本当に質の異なる問題だ。

 

 

まあ、くそしょーもない結末な気がするけど、あまりに前時代的な言った言わないの世界でツチノコを追うようなことを真剣にやっているので、もう、ほんと、どうにかしたほうがいい。

 

参考

行政文書の管理に関するガイドライン
www8.cao.go.jp/chosei/koubun/hourei/kanri-gl.pdf

 

安倍首相vs朝日、「書き換え疑惑」で最終決戦
財務省決裁文書は1強政権の時限爆弾か?
toyokeizai.net/articles/-/211662

 

参議院議員森ゆうこさんのツイート: “明日、森友決済文書のコピー出されてもなあ コピーは私が持っているだけでも、3種類あるんだけど。 どれを出すんだろう?”

 

朝日新聞「森友新疑惑」事実なら財務省解体、誤りなら朝日が解体危機か(髙橋 洋一) | 現代ビジネス | 講談社(1/4)
gendai.ismedia.jp/articles/-/54700