ストップワードの除去 sed 's/ は //g' \ | sed 's/ の //g' \ | sed 's/ を //g' \ | sed 's/ に //g' \ | sed 's/ が //g' \ | sed 's/ と //g' \ | sed 's/ も //g' \ | sed 's/ で //g' \ | sed 's/ ば //g' \ | sed 's/ し //g' \ | sed 's/ て //g' \ | sed 's/ う //g' \ | sed 's/ た //g' \ | sed 's/ ふ //g' \ | sed 's/ これ //g' \ | sed 's/ それ //g' \ | sed 's/ あれ //g' \ | sed 's/ この //g' \ | sed 's/ その //g' \ | sed 's/ あの //g' \ | sed 's/ こと //g' \ | sed 's/ する //g' \ | sed 's/ ら //g' \ | sed 's/ 〔 //g' \ | sed 's/ 〕 //g' \ | sed 's/ 「 //g' \ | sed 's/ 」 //g' \ | sed 's/ 【 //g' \ | sed 's/ 】 //g' \ | sed 's/ ( //g' \ | sed 's/ ) //g' uf-8 形式で /tmp/a を作り,次を実行 cat /tmp/a | mecab -O wakati slothlib_path = 'http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt' slothlib_file = urllib2.urlopen(slothlib_path) slothlib_stopwords = [line.decode("utf-8").strip() for line in slothlib_file] slothlib_stopwords = [ss for ss in slothlib_stopwords if not ss==u'']