Twitterのtweetの言語分析、感情を分析して振り分ける。

形態素解析

一般的な形態素解析を行おうとすると膨大な量の単語から成る辞書を使う必要があり言語をカテゴライズするシステムを作るときには役に立つと思うのですが、人間の感情を解析するときには辞書までは必要なくできるかなと思い、tweetからポジティブなtweetとネガティブなtweetを解析するシステムを作ってみました。ちなみにwikipediaは日本語だけで200万語以上になります。(単語は同じで意味が違うものも含めて)

tweetの解析

一定量のtweetからポジティブな文章なのか?ネガティブな文章なのかを解析しています。ポジティブは前向きな感情と言うことであまり種類は多くなく分かりやすいのですがその分、単語としては多く発生しやすい特徴があります。それに対してネガティブな文章の中には、怒りなどからくる感情も、悲しみからくる感情もあり、この部分を細かく振り分けることが難しいので一律にネガティブと評しています。なので例として誰かが亡くなって悲しいという場合、ネガティブな部分として計算されますが、誰かが事件を起こして怒っているときもネガティブな部分として計算されて、同じネガティブでも意味合いが違うのですが、今のシステムでは分別が難しいですね。

中期的には怒り・嫌悪・恐れ・悲しみ・期待・喜び・驚き・信頼の人間の8種類の感情に分類して解析して見ようかと思います。Robert Plutchik氏の考案した人間の感情についてのものを参考にさせていただきます。対が「喜びと悲しみ」「信頼と嫌悪」「恐れと怒り」「驚きと期待」になり、組み合わせが「期待 + 喜び = 楽観(対になるのは悲観)」「喜び + 信頼 = 愛(対になるのは後悔)」「信頼 + 恐れ = 従順(対になるのは軽蔑)」「恐れ + 驚き = 畏敬(対になるのは攻撃)」「驚き + 悲しみ = 悲観(対になるのは楽観)」「悲しみ + 嫌悪 = 後悔(対になるのは愛)」「嫌悪 + 怒り = 軽蔑(対になるのは従順)」「怒り + 期待 = 攻撃(対になるのは畏敬)」こちらになるそうです。大元のソースがどこか不明なのですがおそらくここだと思います。

tweetの解析期間

こういった解析の中に某大手企業さんも行っているものもありますがあちらと同様に常時行うのは負荷が大きく、ロックがかかるので、当サイトでは一ヵ月前後を目安に再解析をする形式(需要があれば^^)にしようと思います。なのでリアルタイムでの解析を見る場合は某大手企業さんのものの方が良いですね。解析の仕組み自体は全く別のものなので解析結果が一致することはありません。

tweetのword

分析
Twitterの言語解析を行っています。tweetの感情解析などをメインに行います。
タイトルとURLをコピーしました