コーパス日本語学
「コーパス」を使った最先端の日本語研究
専大日語で展開している授業の中でユニークなものの一つが、「コーパス日本語学」の授業です。
「コーパス」とは、実際に話されたり書かれたりした言葉の例を大量に集め、コンピュータで検索できるようにしたデータベースのことです。話し言葉を大量に集めた「話し言葉コーパス」、書き言葉を大量に集めた「書き言葉コーパス」、日本語を学習している外国人(非母語話者)の作文や発話を集めた「学習者コーパス」、古典のテキストを集めた「歴史コーパス」など、さまざまな種類があります。
日本でコーパスの開発・利用が本格的に始まったのは、2000年代以降のこと。コーパス日本語学は、日本語研究の中でも最先端の研究分野と言えます。
「コーパス」を使って分かること
では、コーパスを使うと、何が分かるのでしょうか。以下では、話し言葉コーパスを使った分析の例を紹介します。
私たちが話をしていると、「えー」や「えっと」、「あのー」のような形が出てくることがあります。次の例を見てください。
- (F えー) タイトルは (F えーと) 日本語教育についてです
- (F えーとー) 私は (F あのー) 夏休みに一週間オーストラリアで (F えー) 日本語教師の仕事をしてきました
- (F えっと) で日本語を教えることに興味を持ったきっかけなんですけど (F えー) ...
(F ) で囲った部分は、専門用語で「フィラー」と呼ばれます。発話の最初に現れて発言の開始を合図したり、発話の途中で考え中であることを示したりする働きをします。
では、日本語の話し言葉の中で、一番多く使われるフィラーは、どの形でしょうか?
ここでは、国立国語研究所 で開発された『日本語話し言葉コーパス 』を使って分析してみましょう。このコーパスには、約651時間、752万語分の話し言葉(主に独話)が記録されています。このうち、約45時間、50万語分の音声データ(「コア」)からフィラーを検索してみると、33,292例のフィラーが見つかります。トップ5は、以下のようになっています。
表1:『日本語話し言葉コーパス』コアに現れたフィラーの分布
順位 | 形式 | 頻度 | 割合 |
---|---|---|---|
1 | (F えー) | 9,465 | 28.4% |
2 | (F え) | 4,091 | 12.3% |
3 | (F ま) | 3,345 | 10.0% |
4 | (F あのー) | 2,986 | 9.0% |
5 | (F まー) | 2,674 | 8.0% |
順位 | 形式 | 頻度 | 割合 |
---|---|---|---|
6 | (F あの) | 2,593 | 7.8% |
7 | (F えーと) | 1,003 | 3.0% |
8 | (F あ) | 958 | 2.9% |
9 | (F その) | 862 | 2.6% |
10 | (F あー) | 753 | 2.3% |
この結果から、一番多く使われるフィラーの形は「えー」であることが分かります。
では、男女の間で、使われているフィラーの種類は違うでしょうか。話し手の年齢によって違いはあるでしょうか。おしゃべりの中では、どのようなフィラーが使われるでしょうか。さらにいろいろな問題に発展していけそうです。
行動科学としての日本語研究へ
上に挙げたような問題は、例え母語話者であっても、頭で考えて判断できるものではありません。日常生活の中で、日本語がどのように話され、どのように書かれているのか、その実態を知るには、大規模なデータベース(コーパス)を分析する必要があるわけです。
私たちが、日本語を使ってどのように行動し、どのように生活しているのか、コーパスの分析を通じて、その疑問にアプローチしていくことができるでしょう。そのような視点は、「行動科学としての日本語研究」と呼ぶこともできると思います。
普段は意識することのない私たち自身の言語活動を、コーパスを使って一緒に分析してみませんか。専大日語でお待ちしています。
<参考文献>
丸山岳彦 (2011) 「第10章 コーパス日本語学」益岡隆志編『はじめて学ぶ日本語学』, pp.185-202. ミネルヴァ書房.
[link]
前川喜久雄 編 (2013)『コーパス入門』(講座 日本語コーパス 1), 朝倉書店.
[link]