言語モデルを調べてみた。
①Nグラムモデル
・ある文章があったときに次にくる言葉を予想するために直前の単語、またはその前の単語の意味を頼りに経験値的に
値を予測する手法。※何語前までを対象とするかにより精度が変わる。
・但し、Nグラムモデルは経験値が0の場合は予測することが出来ない問題がある。
そこで、問題の対策としてスムージングを行う必要がある。
Ⅰ.加算スムージング
・計算に一定数を加えて算出する。
Ⅱ.線形補完
・(N-1)次の線形モデルの和によって算出する。
②隠れマルコフモデル
・複数の品詞をもつ単語を含む文章において、次にくる言葉を予測するために品詞の意味を状態、単語を出力記号とした
オートマトンである。
Ⅰ.マルコフ過程
・時系列的な確率過程において状態の確率分布が直前のN個の状態のみに影響を受けるものをN重マルコフ過程いう。
③確率文脈自由文法
・生成規則を用いて文脈をモデル化し、各生成規則に対し確率を付与した文脈自由文法が確率文脈自由文法である。
④形態素解析
・与えられた文章を単語分割し、さらに単語の品詞の意味等の情報を付与する処理