So-net無料ブログ作成

使用している(したい)フリーソフト [ソフトウェア]

研究関連で使用している、もしくは使用したいなと思った便利そうなフリーソフトの情報を貼っておきます。定番も一応。
私は必要のあるところだけ使った初心者で、紹介するのもどうかと思うけれど、何かのお役に立てれば幸いです。参考になる日本語ページもできるだけ貼っておきます。
申し訳ないのですが、私に質問をいただいても信頼性の高い回答ができないため、各参考ページをご覧下さい。
ソフト名・参考ページ名をクリックしていただくとダウンロードや参考ページに飛びます。

[テキストマイニング関連]
1.TinyTextMiner
TTMはテキストマイニングの前処理のためのフリーウェアです(トップページより)。
このソフトでテキストを前処理(自然言語処理)して、Rで統計解析したりWekaでデータマイニングできます。
使用に際して、mecab(形態素相席器)やcabocha(構文解析器)のダウンロードが必要となります。それらのリンクも上記のページにあります。
参考書籍として『人文・社会科学のためのテキストマイニング』があります。
この本はTTMやR、Wekaを使いながら、テキストマイニングの基本を実際にデータ(事例)を使って説明してくれています。テキストマイニングの基礎にも良いと思います。各種ソフト(RやWekaも)のインストール方法も書いてあり、使用するサンプルデータも上記ページにあります。

2.KH Coder
KH Coderはテキストマイニングのフリーソフトで、上記のTTMと形態素解析のソフトとRが合わさった感じです(実際はChasenとMySQLとPerlとRが入っているらしい)。
TTMでは前処理とそれ以降の統計解析を別々のソフトで行う必要がありますが、KH Coderを使えば一つのソフト内でできます。
視覚的に簡単に分析ができるので、とりあえず、楽に、直観的に、いろいろやりたい場合はいいかもしれません。
共起分析・共起ネットワークの作成も簡単にできますので、テキストデータ中の共起をすぐ見たい!とかだといいかも。
チュートリアルを見れば一通りのことはできると思います。マニュアルも丁寧。
しかし、共起分析後の関連語リストなどで出てきていない語があるような気がしなくもない、などちょっと気になることもあるので、分析結果は精査する必要があると思います。

追記(2014.12.20):
関連語リストの件はHPで言及されていました。共起を考えるときに、その語に特有の関連語を提示するようになっているようです(他の語とも頻繁に関連している語は除く)。ですので、プログラムに誤りがあるわけではなく、正しく解釈する必要があるということのようです。
また、2014年12月のアップデートでExcel系のファイルがそのまま読み込めるようになり便利度が増した可能性があります(まだ使ってないのでわからない)。
なお、Macへ自分で導入しようとすると結構面倒らしいのですが、4,000円払うと簡易にできるパッケージが提供されます。これだけの機能でWin版無料っていうのが驚異だと思うので、4,000円は安いかも。ただし、動作は少しゆっくりな感じです。立ち上がりも遅いですが、待っていればちゃんとします。

追記(2015.6.13):
テキストマイニングについて、KH Coderを開発された樋口先生が書籍を出されていました。
社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

ここに目次があります。
(少し前に読んだので記憶が曖昧な部分があって申し訳ないのですが)第一章・二章でテキストマイニングの思想も書かれており、それ以降の章では実際のテキスト分析の研究事例を知ることができます(KH Coderの使い方も同時に学べると思います。後半をしめる部分はフリーのマニュアルとほぼ同じ内容です)。
テキストをどう分析すれば(して)よいのかは、もちろん目的によりますが、テキストマイニングでどこまでいかれるのか、その一端を考えるのに役立つ書籍だと感じました。個人的には好きです。
これを見ながらKH Coderをいじって色々分析したくなります(その限界や思想を忘れては駄目だけれど...これは定量でも定性でもどの分析手法でも同じかと思います)。

追記(2015.7.27)
KH CoderのMac版で、前処理-分析対象ファイルのチェックでは無事できると言われても、実際に前処理を実行すると茶筌のエラーで強制終了することがありました。
私の場合は、対象ファイルのファイル名が(何にも考えて付けなかったので)、「XXX(XX)」みたいに半角括弧が入っていて、これを修正したら直りました。
なんとなく、この場合Macに限ったことではないような気もしますが、Mac版で茶筌のエラーで落ちて使えないという情報が掲示板にあるみたいなので、もし該当される方はとりあえずファイル名を修正してみる、というのも手かもしれません。
もちろん、そもそもテスト用の漱石の『こころ』が動かなかったら別問題だと思います。
んーしかしMac版買って良かった。古いWindowsPCいちいち立ち上げなくていいのですごい快適。

追記(2015.7.28)
KH CoderをMacで使っていて、最初にひっかかるのがShift-JISにして、かつ改行コードをMacでないのにするところ。
今回は本体ファイルはちゃんと用意しても、外部変数用のファイルでひっかかった。
外部変数の読取りエラー(ケース数が違うから中断すると言われる)のもこのエラーの可能性が高いので、文字コードと改行コードを常に確認するといい。


[会話・音声分析関連]
1.ELAN
ダウンロードページではなくて、日本語の参考ページを貼りました。そこからダウンロードページに飛べます。
会話分析研究でよく使われるソフトです。きっと多分。
映像データや音声データを見ながら、注釈(主として発話内容を入れます)をつけていくことができます。
また、つけた注釈データをテキストやExcelデータに書き出すこともできるので、何秒から何秒までこの発話内容があった、というような一覧データを得ることもできます。
私は会話分析ではなくて、動作の映像をこれに入れて、動作内容を注釈データに入れて、それをExcelに落としています。
そうすると、動作が何秒から何秒まで起こっていたか、というデータが取り出せます。まだやっていないけれど、ちゃんとやれば動作パターン分析の元データに使えるはずです。もっと綺麗な方法があるような気がしなくもないですが...。

2.Praat
日本語で解説してくれているページ(Akira Usugi's web site)によると、
「Praatは,アムステルダム大学のPaul Boersma氏とDavid Weenink氏によって開発されたオープンソースのソフトウェアです。音声の音響分析を行うことのできるソフトとして,世界中で広く使われています。」
だそうです。
他に参考になるページとしてこちらがあります。
まだほとんど使っていないので全然わかっていませんが(ごめんなさい。わかったら更新します)、音声データから音声の周波数分析や加工やらそういう音響分析ソフトができるわりと一切合切をフリーでできるみたいです。言語学で使われている???
スクリプトを書いて色々出来るようですが、書かなくてもわりと直観的に使えそうです(さきほどボタンを押していたらたまたま欲しいデータが出来ましたが、あまりに適当にやっていたので、一体どうやったのか一瞬わからなくて困りました...それくらい簡単にも動きそうです。やりたいことによるけれど)。
非常に多機能なため、使いこなすのは難しい...が、やりたいことによっては(私は沈黙部分を同定したいだけ。もしくは声が低くなった箇所を同定したい)ある程度簡単にできるでしょう。

そして、どうやらELANと一緒に使うことが出来るみたいです(参考ページ)
ELANは音声分析はできないので、必要ならこちらと連動すると良いかもしれません。
Praatはまだまだ未使用なので、もう少しわかったら追記します。

[コンコーダンス関連]
私は研究目的ではなくて自分の関連分野の英語論文のコーパス分析に使っている(使いたい)ので、専門的なコーパス分析とは違うかもしれません。
自分の分野で、この英単語って前後に何が来るのか?みんなどうやって言うのか?などを知りたいときに便利かと。
2つ紹介しますが、おそらく内容はほとんど変わらないです。
1.AntConc
日本語解説ページも貼っておきます。

2.CasualConc


以下はとりあえず、リンクだけ。そのうち書きます。
[Tex関連]
1.Drag & Drop UPTex
Texの導入に。

2.LaTeXiT
Texの数式をkeynoteに張り付けるために。私は文字だと入らない。

3.ToyViewer
上記は解説ページです。Texに貼付けるeps形式の画像ファイルを作るために。

4.スケッチ風ドロー
上記は解説ページです。Texに貼付けるeps形式の画像ファイルを作るために。

[その他]
1.NoSleep
Macを眠らせないために。

2.Weka
データマイニングフリーソフト。GUI。Javaが必要。

3.R
統計解析用フリーソフト。



人文・社会科学のためのテキストマイニング

人文・社会科学のためのテキストマイニング

  • 作者: 松村 真宏
  • 出版社/メーカー: 誠信書房
  • 発売日: 2009/04/24
  • メディア: 単行本




社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

  • 作者: 樋口 耕一
  • 出版社/メーカー: ナカニシヤ出版
  • 発売日: 2014/03
  • メディア: 単行本



nice!(0)  コメント(2)  トラックバック(0) 

nice! 0

コメント 2

K. Higuchi

こんにちは、樋口と申します。KH Coderを取り上げていただいてありがとうございます。

> しかし、共起分析後の関連語リストなどで出てきていない語がある
> ような気がしなくもない、などちょっと気になることもあるので、
> 分析結果は精査する必要があると思います。

共起ネットワークでは、頻出語であっても、他の語と強い共起関係の無い語は描画されません。この点が気になる場合は、多次元尺度法や自己組織化マップをお使いください。※自己組織化マップはすごく時間かかります。

そのほかにもお気がかりの点がございましたら、是非KH CoderのWebの掲示板ででもお知らせいただきますと幸いです。
by K. Higuchi (2014-07-22 16:40) 

miho

樋口さん

ご返信が遅くなり申し訳ありません。コメントいただきありがとうございます。
ブログの設定上コメントに気がつくのが遅くなってしまいました。

共起ネットワークの件、ありがとうございます。私もマニュアルを読み直し、KH Coderの掲示板を見て気がつきました。
最近はMac版も購入して使っています。高機能なのにフリーもしくは廉価で、しかもきちんとサポートしていただけるのでとても助かります。
by miho (2015-02-19 10:03) 

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

※ブログオーナーが承認したコメントのみ表示されます。

トラックバック 0