文字コード

2023.05.10

官報に使われる「官報文字」というものがあります。

そこには渡辺さんの「辺」の異体字が１４０文字も登録されています。

日本語の常用漢字には２１３６文字ありますが、そこには邉や邊などは入っていません。

そこでＪＩＳの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。

ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも５５，２７０文字もあります。

全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を２０１１年に策定し、それにあわせたフォントを作成し、無償で提供しています。

この「文字情報基盤」（ＭＪ）には、５８，８６２文字が含まれています。

しかし、このＭＪを全庁的に採用している自治体は、川口市などごく一部の自治体しかありません。

多くの自治体は、戸籍を電子化するにあたって、それぞれ個別にベンダーに依頼して、各社のシステムにない漢字を「外字」として作成して使っています。

外字の作成時期によっては第三水準、第四水準の文字も外字として登録されています。

その結果、Ｘ社のシステムとＹ社のシステムでは同じ漢字に割り当てたコードが違っているのはもちろんのこと、同じＸ社のシステムを使っていてもＡ市のＸ社のシステムとＢ市のＸ社のシステムで、同じ文字に違うコードが割り振られているということが普通に起きてしまいました。

そして全国の自治体の戸籍で使っている「外字」を含めた漢字の総数は１６３万字になったのです。

しかも、ベンダーごとに、自治体ごとに、文字に割り当てたコードが違うために、どんなにコストが高くてもベンダーを乗り換えることが容易にはできないベンダーロックインといわれる状況になってしまっています。

現在、デジタル庁主導で、２０２６年３月までに自治体のシステムを標準に合わせたものにした上で、政府のクラウドに載せ替える作業、「自治体システムの統一・標準化」が進んでいます。

この標準化をきっかけにして、自治体ごとの個別の外字を使ったシステムから国際標準に適合した統一文字コードであるＭＪに移行していこうと、今回、ベンダーが作成した１６３万字をもう一度、法務省で精査しました。

１６３万字から重複を除くと７０万字となり、そのうち５５万字はすでにＭＪにある文字と同じものであるとして、同定することができました。

しかしながら、残りの１５万字は、ＭＪ上の文字とは違うものでした。

この１５万字から重複を除いて、全国の戸籍を確認したところ、このうち実際に戸籍で使われている文字は９１９８字だと判明しました。

これまでのＭＪにこの約一万字を加えたＭＪ＋を用いることで、ベンダーを気にせずに、戸籍上の自分の名前を戸籍システムで正確に表記することができるようになります。

また、スマホなど、ＭＪ＋を使えないシステムに向けては、ＭＪ＋をＪＩＳ第四水準のどの文字に代替するかを定めた代替マップも提供します。

これらの取り組みにより、戸籍上の文字については、ほぼ、取り込むことができましたが、行政には戸籍文字以外のさまざまな文字も使われています。

例えば在留カードなどの外国人氏名に使われている入管文字、官報に使われている官報文字、登記に使われている法人名等に使われている登記固有文字などがあります。

今後、このＭＪ＋にどの文字を加えるのかといった検討が続きます。

文字は、日本の文化です。

文化をデジタルにあわせるのではなく、デジタルを文化にあわせていきます。

衆議院議員河野太郎公式サイト