「IME文節」という謎のジャーゴンについて

はじめに

日本の仮名漢字変換関連の某システムの一派の方面が発信元のようですが(その集団ないし個人を糾弾することが目的ではないので、ここでは明示しませんが)、「IME文節」という謎の(良くない)ジャーゴンが広まっているようですので、注意喚起の意図で本稿を書きます。

結論

それは、「複合語」や「接辞」や「造語成分」などに関する処理ではないですか? そうであればそのまま、例えば「複合語の分割と変換」などのように表現すべきです。

なぜ「IME文節」などという表現がされるのか

検索で見つかるいくつかのウェブページや資料などから、私が推測した所では、以下のような理屈により「IME文節」という概念が必要だと思われているようです。

(1) 日本語の文法では、文は以下の BNF のようになっている(ここでは句読点等は除いて考えている)。

<文>	::= <文節>+
<文節>	::= <自立語> <付属語>*

ここで、自立語とは名詞や動詞だから、仮名漢字変換としては、活用語尾などへの対処は必要であるが、辞書を引いて対処することになる。(付属語についてはたいていはひらがなであり、ここでは考えない)

(2) しかし実際に変換の対象となる文には、「電子情報通信学会定時社員総会において」というような、1語として辞書に用意するのはありえないようなものもよく出てくる。

(3) なので実際の仮名漢字変換では、ここで示したような日本語の文法によるものよりも細かい分解が必要である。

(4) そこでこの、仮名漢字変換で必要な分解の単位を「IME文節」と呼ぼう。

という感じのようです。

どこがどう問題か

前の節で示したうちの、(3) までは問題ありません。問題は (4) です。「IME」という表現が含まれていることから、広まったのは1990年代後半以降であることは確実でしょう(ただしもっと古くから同様な考え方がされていた可能性はあります)。

しかし、そのような自然言語処理の手法はワープロにおいてもっと以前からちゃんとあったものです。仮名漢字変換を実装して出荷されたものとしては最初のワープロである東芝 JW-10 他は、1980年前後のものですから、当然「IME」という語が広まるよりも古いですが、このような「辞書に無い自立語」のことはちゃんと考えて作られています。研究所で研究開発を担当し、JW-10モデル1を設計した天野真家先生が著者に入っている学会発表で「局所意味分析」といったような語が題ないしアブストに入っているものがありますが*1、それが、JW-10モデル1における、これに相当する処理で、後述する「接辞」としての扱いに近い形ですが、このような自立語の処理の実装の報告となっています。*2

そういったように、日本において実用的な仮名漢字変換が最初に実装された時点で考慮されていたものであり、また以降で述べるように、言語学的にも以前からきちんと扱われていたものを、ワープロのような自然言語処理でも扱うようになったものに過ぎませんから、あたかもIMEにおける特異な現象であるかのようなジャーゴンを与え、その名で呼ぶのは不適切です。

国語学的にはどうなのか

ソシュール*3チョムスキー以後の言語学がとり入れられた現代の日本語文法学を持ち出すまでもなく、橋本文法の解説などにも*4、以上で説明したような「自立語よりも細かい単位」について、実際にはきちんと言及はあります。*5

橋本文法の原典『国語法要説』は、流石に参照はたいへんですが(というか私も見ていません)、山口明穂編『国文法講座 1 文法の体系』(1987)であれば、公共図書館での取り寄せはそんなに難しくもないと思います(CiNiiで見たところ、大学図書館への所蔵で200件以上あります)。それを読むと、より細かい単位について、以下のようなことが書いてあります。

(要約)さらに細かくできそうなものとして、「本箱」や「酒樽」といったような複合語は、「本」と「箱」、「酒」と「樽」といったように分解できるが、分解されたそれぞれは部分にしかなっていない。また、付属語の他に、「お山」の「お」のような接頭辞などの接辞もある*6

また、古くからあるいくつかの仮名漢字変換システムにおいても、このような語のために、入力の扱い方を変えるモードのようなものとして「複合語変換」というような名前の機能を持っていたり、マニュアル内で「造語成分」といったように説明されていたりします。

まとめ

まとめると、そもそも「文節」ではなく、ちゃんと「複合語」や「接辞」という専門用語があるものを、単に仮名漢字変換において切り分けが必要だというだけで「IME文節」などと呼ぶのはあまりに雑であり、やめるべきだろう、ということになります。

完全に余談

以上の議論では全く触れていませんので(意図的です)、あたかも「文節」というものは、国語学において、橋本文法における文節として自明と言ってしまってよいほどに確かなものと扱われているように思えるかもしれませんが(あるいは、学校の国語の授業ではそのような前提があるかの如く教授されているかもしれませんが)、そんなことはなく、かの水谷静夫先生ですらおおいに悩まされたという話が『国語学五つの発見再発見』(創文社版 p. 107 脚注12)にあります*7

*1:他、いくつかの講演資料のようなものにも見つかる。

*2:詳細には、「だいいっかい」→「第一回」のような変換において、「第」と「回」には関連があるから、というような話なのですが、「第一階述語論理」が例外だ、というのが「自然言語処理」の講義では余談(?)でした。

*3:「四大文法」のひとつ、時枝文法にはソシュールの影響がある(批判的だとも、誤解であるとも言われているようだが、ともかく影響があったということはそうだろう)。

*4:いわゆる「学校文法」のベースが橋本文法であるということは事実ですが、義務教育で扱っていることが橋本博士の文法の全て、などというわけはありません。

*5:ましてや、書店にはむしろそちら側の本しかないというような状況の、俗説の入り込む隙などは全く無い。

*6:「付属語と接辞の違いは、根本的なものでなく程度の差に過ぎない」ともあって、これはちょっとわからないのだが……。

*7:国研での用語調査の際の集計対象を文節としたので……といったような話。