Computer Science without the Web
Web技術以外のコンピュータサイエンス(準備中)。
Pages
Home
サイトのねらい
Monday, January 20, 2014
アルゴリズム: グラフ理論
Tools:
Neo4j
ArrangoDB
アルゴリズム: 動的計画法
Big O Notation で Scalability が困難な時に用いる。
セールスマン循環問題
ハノイの塔
Sunday, January 19, 2014
自然言語処理(NLP): 形態素解析(Morphological Analysis)
自然言語における文を、意味のある最小単位のユニット(形態素)まで分解する手法。分かち書きを行わない日本語や中国語の様な言語の処理に必要。英語は "This is an apple." の様に文の中の単語の境界がスペース区切りで明確で、これを区切る処理は "Tokenization" と呼ばれる。一方で屈折語として時制や人称による変化があるので、これを元の形にもどす "Stemming" が必要とされる。
Related Tools
MeCab
ChaSen
Natural
JavaScript による WordNet を使用した Tokenization や Stemming を提供するツール。英語, ロシア語, スペイン語対応。
References
形態素解析 - Wikipedia
Applications
ネガポジ判定(感情分析 - Sentiment Analysis)
自動要約(Automatic Summerization)
クラスタリング(eg.
tf-idf (Term Frequency-Inverse Document Frequency)
)
Home
Subscribe to:
Posts (Atom)