文字コード
2023.05.10
官報に使われる「官報文字」というものがあります。
そこには渡辺さんの「辺」の異体字が140文字も登録されています。
日本語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。
そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。
ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。
全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。
この「文字情報基盤」(MJ)には、58,862文字が含まれています。
しかし、このMJを全庁的に採用している自治体は、川口市などごく一部の自治体しかありません。
多くの自治体は、戸籍を電子化するにあたって、それぞれ個別にベンダーに依頼して、各社のシステムにない漢字を「外字」として作成して使っています。
外字の作成時期によっては第三水準、第四水準の文字も外字として登録されています。
その結果、X社のシステムとY社のシステムでは同じ漢字に割り当てたコードが違っているのはもちろんのこと、同じX社のシステムを使っていてもA市のX社のシステムとB市のX社のシステムで、同じ文字に違うコードが割り振られているということが普通に起きてしまいました。
そして全国の自治体の戸籍で使っている「外字」を含めた漢字の総数は163万字になったのです。
しかも、ベンダーごとに、自治体ごとに、文字に割り当てたコードが違うために、どんなにコストが高くてもベンダーを乗り換えることが容易にはできないベンダーロックインといわれる状況になってしまっています。
現在、デジタル庁主導で、2026年3月までに自治体のシステムを標準に合わせたものにした上で、政府のクラウドに載せ替える作業、「自治体システムの統一・標準化」が進んでいます。
この標準化をきっかけにして、自治体ごとの個別の外字を使ったシステムから国際標準に適合した統一文字コードであるMJに移行していこうと、今回、ベンダーが作成した163万字をもう一度、法務省で精査しました。
163万字から重複を除くと70万字となり、そのうち55万字はすでにMJにある文字と同じものであるとして、同定することができました。
しかしながら、残りの15万字は、MJ上の文字とは違うものでした。
この15万字から重複を除いて、全国の戸籍を確認したところ、このうち実際に戸籍で使われている文字は9198字だと判明しました。
これまでのMJにこの約一万字を加えたMJ+を用いることで、ベンダーを気にせずに、戸籍上の自分の名前を戸籍システムで正確に表記することができるようになります。
また、スマホなど、MJ+を使えないシステムに向けては、MJ+をJIS第四水準のどの文字に代替するかを定めた代替マップも提供します。
これらの取り組みにより、戸籍上の文字については、ほぼ、取り込むことができましたが、行政には戸籍文字以外のさまざまな文字も使われています。
例えば在留カードなどの外国人氏名に使われている入管文字、官報に使われている官報文字、登記に使われている法人名等に使われている登記固有文字などがあります。
今後、このMJ+にどの文字を加えるのかといった検討が続きます。
文字は、日本の文化です。
文化をデジタルにあわせるのではなく、デジタルを文化にあわせていきます。