JAIST Repository >
b. 情報科学研究科・情報科学系 >
b10. 学術雑誌論文等 >
b10-1. 雑誌掲載論文 >

このアイテムの引用には次の識別子を使用してください: http://hdl.handle.net/10119/7928

タイトル: 統計的構文解析における構文的統計情報と語彙的統計情報の統合について
著者: 白井, 清昭
乾, 健太郎
徳永, 健伸
田中, 穂積
キーワード: 統計的構文解析
構文的統計情報
語彙的統計情報
統合的確率言語モデル
statistical parsing
syntactic statistics
lexical statistics
integrated probabilistic language model
発行日: 1998-07-10
出版者: 言語処理学会
誌名: 自然言語処理
巻: 5
号: 3
開始ページ: 85
終了ページ: 106
抄録: 本論文では,構文解析の曖昧性解消を行うために,構文的な統計情報と語彙的な統計情報を統合する手法を提案する.我々が提案する統合的確率言語モデルは,構文的優先度などの構文的な統計情報を反映する構文モデルと,単語の出現頻度や単語の共起関係などの語彙的な統計情報を反映する語彙モデルの2つの下位モデルから成る.この統計的確率言語モデルは,構文的な統計情報と語彙的な統計情報を同時に学習する過去の多くのモデルと異なり,両者を個別に学習する点に特徴がある.構文的な統計情報と語彙的な統計情報を独立に取り扱うことにより,それぞれの統計情報を異なる言語資源から独立に学習することができるだけでなく,それぞれの統計情報が曖昧性解消においてどのような効果を果たすのかを容易に分析することができる.この統計的確率言語モデルを評価するために,日本語文の文節の係り受け解析を行った.構文モデルを用いたときの文節の正解率は73.38%となり,ベースラインに比べて11.70%向上した.また,構文モデルと語彙モデルを組み合わせることにより,文節の正解率はさらに10.96%向上し84.34%となった.この結果,本研究で提案する枠組において,語彙的な統計情報は構文的な統計情報と同程度に曖昧性解消に貢献することを確認した. : In this paper, we propose a new framework of statistical language modeling integrating syntactic statistics and lexical statistics. Our model consists of two submodels, the syntactic model and lexical model. The syntactic model reflects syntactic statistics, such as structural preferences, whereas the lexical model reflects lexical statistics, such as occurrence of each word and word collocations. One of the characteristics of our model is that it learns both types of statistics separately, although many previous models learn them simultaneously. Learning each submodel separately enables us to use a different language source for different submodels, and to make understanding of each submodel's behavior much easier. We conducted a preliminary experiment, where our model was applied to the disambiguation of dependency structures of Japanese sentences. The syntactic model achieved 73.38% in Bunsetu phrase accuracy, which is 11.70 points above the baseline, and when incorporating the lexical model with the syntactic model, further 10.96 point gain was achieved, to 84.34%. Thus the contribution of lexical statistics for disambiguation is as great as that of syntactic statistics in our framework.
Rights: Copyright (C) 1998 言語処理学会. 白井清昭, 乾健太郎, 徳永健伸, 田中穂積, 自然言語処理, 5(3), 1998, 85-106.
URI: http://hdl.handle.net/10119/7928
資料タイプ: publisher
出現コレクション:b10-1. 雑誌掲載論文 (Journal Articles)

このアイテムのファイル:

ファイル 記述 サイズ形式
B2416.pdf4271KbAdobe PDF見る/開く

当システムに保管されているアイテムはすべて著作権により保護されています。

 


お問い合わせ先 : 北陸先端科学技術大学院大学 研究推進課図書館情報係