ストップワードの除去

sed 's/ は //g' \
| sed 's/ の //g' \
| sed 's/ を //g' \
| sed 's/ に //g' \
| sed 's/ が //g' \
| sed 's/ と //g' \
| sed 's/ も //g' \
| sed 's/ で //g' \
| sed 's/ ば //g' \
| sed 's/ し //g' \
| sed 's/ て //g' \
| sed 's/ う //g' \
| sed 's/ た //g' \
| sed 's/ ふ //g' \
| sed 's/ これ //g' \
| sed 's/ それ //g' \
| sed 's/ あれ //g' \
| sed 's/ この //g' \
| sed 's/ その //g' \
| sed 's/ あの //g' \
| sed 's/ こと //g' \
| sed 's/ する //g' \
| sed 's/ ら //g' \
| sed 's/ 〔 //g' \
| sed 's/ 〕 //g' \
| sed 's/ 「 //g' \
| sed 's/ 」 //g' \
| sed 's/ 【 //g' \
| sed 's/ 】 //g' \
| sed 's/ （ //g' \
| sed 's/ ） //g' 

uf-8 形式で /tmp/a を作り，次を実行

cat /tmp/a | mecab -O wakati 

slothlib_path = 'http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt'
slothlib_file = urllib2.urlopen(slothlib_path)
slothlib_stopwords = [line.decode("utf-8").strip() for line in slothlib_file]
slothlib_stopwords = [ss for ss in slothlib_stopwords if not ss==u'']