専修大学国際コミュニケーション学部日本語学科

コーパス日本語学

「コーパス」を使った最先端の日本語研究

専大日語で展開している授業の中でユニークなものの一つが、「コーパス日本語学」の授業です。

「コーパス」を使った最先端の日本語研究

「コーパス」とは、実際に話されたり書かれたりした言葉の例を大量に集め、コンピュータで検索できるようにしたデータベースのことです。話し言葉を大量に集めた「話し言葉コーパス」、書き言葉を大量に集めた「書き言葉コーパス」、日本語を学習している外国人(非母語話者)の作文や発話を集めた「学習者コーパス」、古典のテキストを集めた「歴史コーパス」など、さまざまな種類があります。

日本でコーパスの開発・利用が本格的に始まったのは、2000年代以降のこと。コーパス日本語学は、日本語研究の中でも最先端の研究分野と言えます。

「コーパス」を使って分かること

では、コーパスを使うと、何が分かるのでしょうか。以下では、話し言葉コーパスを使った分析の例を紹介します。

私たちが話をしていると、「えー」や「えっと」、「あのー」のような形が出てくることがあります。次の例を見てください。

(F ) で囲った部分は、専門用語で「フィラー」と呼ばれます。発話の最初に現れて発言の開始を合図したり、発話の途中で考え中であることを示したりする働きをします。

では、日本語の話し言葉の中で、一番多く使われるフィラーは、どの形でしょうか?

ここでは、国立国語研究所 で開発された『日本語話し言葉コーパス 』を使って分析してみましょう。このコーパスには、約651時間、752万語分の話し言葉(主に独話)が記録されています。このうち、約45時間、50万語分の音声データ(「コア」)からフィラーを検索してみると、33,292例のフィラーが見つかります。トップ5は、以下のようになっています。

表1:『日本語話し言葉コーパス』コアに現れたフィラーの分布

順位形式頻度割合
1(F えー)9,46528.4%
2(F え)4,09112.3%
3(F ま)3,34510.0%
4(F あのー)2,9869.0%
5(F まー)2,6748.0%
順位形式頻度割合
6(F あの)2,5937.8%
7(F えーと)1,0033.0%
8(F あ)9582.9%
9(F その)8622.6%
10(F あー)7532.3%

この結果から、一番多く使われるフィラーの形は「えー」であることが分かります。

では、男女の間で、使われているフィラーの種類は違うでしょうか。話し手の年齢によって違いはあるでしょうか。おしゃべりの中では、どのようなフィラーが使われるでしょうか。さらにいろいろな問題に発展していけそうです。

行動科学としての日本語研究へ

上に挙げたような問題は、例え母語話者であっても、頭で考えて判断できるものではありません。日常生活の中で、日本語がどのように話され、どのように書かれているのか、その実態を知るには、大規模なデータベース(コーパス)を分析する必要があるわけです。

私たちが、日本語を使ってどのように行動し、どのように生活しているのか、コーパスの分析を通じて、その疑問にアプローチしていくことができるでしょう。そのような視点は、「行動科学としての日本語研究」と呼ぶこともできると思います。

「コーパス」を使った最先端の日本語研究

普段は意識することのない私たち自身の言語活動を、コーパスを使って一緒に分析してみませんか。専大日語でお待ちしています。


<参考文献>

丸山岳彦 (2011) 「第10章 コーパス日本語学」益岡隆志編『はじめて学ぶ日本語学』, pp.185-202. ミネルヴァ書房. [link]
前川喜久雄 編 (2013)『コーパス入門』(講座 日本語コーパス 1), 朝倉書店. [link]

<参考シラバス>

コーパス日本語学1  /  コーパス日本語学2

トップに戻る