コンピュータを漢字にあわせろ

日本語をきちんと処理できるコンピュータを開発すべし

 行政のコンピュータ化というかけ声の下、全国の戸籍の電子化が着々と、いや遅々と進んでいます。おそらく全国的には戸籍の四割が電子化され、残り六割をあと十年で全て電子化することになっています。

 さて、もともと手書きだった戸籍を電子化するときに一番問題になるのが漢字です。

 例えば「わたなべ」さんには渡辺さんだけではなく渡邊さんもいれば渡邉さんもいらっしゃいますし、「さいとう」さんには斉藤さん、斎藤さん、齋藤 さん、齊藤さん…。手書きで書かれた戸籍の字の中には、一般的な漢字によく似ているけれど異なる字、大変珍しいけれど確かに漢字として存在する字もあ ればくずし字や単なる書き間違いもあります。違う字ならばコンピュータ上できちんと違う字として認識され、表示されるようにしなければなりませんし、くず し字ならばその必要はありません。書き間違いならば訂正すれば済みますが、似ているけれど違う字ならば分けなければなりません。

 俗に「はしご高」といわれる字は「高」という字と違うのか同じなのか、「糸(いとへん)」の下の部分が点三つになっているのは「糸」と同じ字なのか違う字なのか、それを一つずつ判断しなければなりません。

 戸籍を電子化するこの作業のなかで、驚くほどたくさんの漢字が「発見」されます。

 何かの理由で、もとの戸籍用紙から名前を切り取って新しい用紙に貼り付けてコピーを取ったら、切り取られたフチの部分がコピーでスジのように写っ てしまい、それが横棒と見間違えられて「女」という字の上に一本長い横棒がある漢字が作られてしまった例などがあります。国語研究所がこの字を調べていっ た結果、こうした事実を突き止め、この字は間違いということで「女」に訂正されました。

 こうした作業を一字ずつ積み重ねていった結果、日本語の漢字がいったいいくつあるのかわかってくるのです。しかし、アルファベットを使う言葉を念 頭において作られたコンピュータシステムでは、漢字の細かい違いにはなかなか対応できません。渡邊さんも渡邉さんも渡辺でいいんじゃないのということにな りがちです。

 漢字は日本語の大切な要素であり、言葉の歴史であり、文化であるということを認識していないと、この電子化作業の中で、文字をコンピュータにあわせるということが平気で行われてしまいます。

 戸籍の電子化が行われている自治体には政府から通達が出され、作業の中で疑問に思われる字が出てくれば、必ず国語研究所の判断を仰ぐことになって います。しかし、担当者が漢字に対する認識がなく、似たものだから同じでいいじゃないかということにしてしまうと、極端な場合、日本語から漢字が一つ失わ れるということにもなりかねません。

 例えば果物の「柿(かき)」と削った木片の意味の「柿(こけら)」はよく似た漢字ですが、「かき」は九画、「こけら」は八画です。似たような字だ からとこの二つを一緒の字として電子化してしまったらどうなるでしょうか。電子化するメリットの一つは検索ができるということですが、「こけら」を検索し たはずなのに「かき」も一緒に検索されてしまうことになってしまいます。

 「あくたがわりゅうのすけ」の「りゅう」の字は決して「龍」ではありません。でも「龍」の字を使って電子化してしまったらどうなるでしょう。正しい「りゅう」の字で検索してもコンピュータは正しい検索結果を示してはくれなくなります。

 日本語の「骨」という字は上の部分が┏ になっていますが、台湾で「ほね」という字を書くと上の部分が ┓になります。つまり、違う字なのです。ところが欧米のアルファベット文化のコンピュータ では、この程度の違いならば同じ字として扱えば良いではないかということになりがちです。違う文字を違う文字として認識できないシステムでは、日本語を正 確に電子化することができません。

 マイクロソフトのウィンドウズでは日本語の全ての漢字を扱うことができませんが、日本で開発されたトロンと呼ばれるシステムならば日本語の漢字を それぞれ別なものとして扱うことができます。道具であるコンピュータに私たちの文化であり伝統である日本語をあわせるのではなく、日本語にコンピュータを あわせていく必要があります。

 日本語、中国語、韓国語、タイ語、タミル語などアルファベット以外の文字を正確に扱えるアジア言語向けの新しいシステムの開発が今後、必要になってくるはずです。日本はそうした動きの先頭に立つべきだと思います。

(ごまめの歯ぎしり第二十四号)



ごまめの歯ぎしり メールマガジン(応援版) ニコニコ動画ごまめの歯ぎしり メールマガジン(応援版) 河野太郎の著書
河野太郎facebook 河野太郎インスタグラム

twitter



河野太郎にメールする