スクレイピングで使用しているcasperJSでWebサイトの日本語を抽出したところ文字化けしていました
調べたところWebサイトがutf-8に対しコマンドプロンプトがshift-jisなのが原因でした
前提
大した内容ではないですが、一応以下に環境と現象を記載します。
- Windows 10
- casperJS
- コマンドプロンプト
不具合の内容
casperJSで日本語を抽出したところ文字化けする
以下該当箇所のみ抜粋
casper.then(function() { this.echo(this.fetchText(".date")); }); casper.run();
解決策
コマンドプロンプトの文字コードを変更すればいいです。
暫定的ですが一番簡単な方法はコマンドプロンプトでchcp 65001を入力すればokです。
ただこれはコマンドプロンプトを起動する度に入力しなければいけません。
またPHPからexec()で日本語を取得する時なども考えると、デフォルトで文字コードをutf-8にしておくのが理想です。
なのでこのQiitaに記載されている方法をとりましょう。