Monday, January 20, 2014

Sunday, January 19, 2014

自然言語処理(NLP): 形態素解析(Morphological Analysis)

自然言語における文を、意味のある最小単位のユニット(形態素)まで分解する手法。分かち書きを行わない日本語や中国語の様な言語の処理に必要。英語は "This is an apple." の様に文の中の単語の境界がスペース区切りで明確で、これを区切る処理は "Tokenization" と呼ばれる。一方で屈折語として時制や人称による変化があるので、これを元の形にもどす "Stemming" が必要とされる。

Related Tools

  • MeCab
  • ChaSen 
  • Natural JavaScript による WordNet を使用した Tokenization や Stemming を提供するツール。英語, ロシア語, スペイン語対応。

References

  • 形態素解析 - Wikipedia

Applications