スキップしてメイン コンテンツに移動

fgets()でUTF-16LEのファイルを読む

fgets()でUTF-16LEのファイルを読んだときにハマったお話。



fgets()は、第2引数を省略した場合、

・改行文字 (0x0A) を検出した

又は

・EOFに達した

場合に読み出しを終える。


ここに

123改行
123改行
EOF

というBOM無しファイルがあったとする。


UTF-16BEのバイト配列は

00 31 00 32 00 33 00 0A
00 31 00 32 00 33 00 0A



UTF-16LEのバイト配列は

31 00 32 00 33 00 0A 00
31 00 32 00 33 00 0A 00


となる。


このBOM無しUTF-16LEファイルを次のように読むと、

$fp = fopen("UTF16LE.txt", "r");

$bf = fgets($fp); // (1)

$bf = fgets($fp); // (2)



(1)の結果は
31 00 32 00 33 00 0A

(2)の結果は
00 31 00 32 00 33 00 0A

となる。

(1) は 0x0A を検出した時点で読み出しを止め、変数 $bf へ結果を返している。
(2) は、(人から見た)1行目の「0x0A」の次の 0x00 から読み出しが開始されるため、バイトオーダーが反転した(LE からBEに変わった)ような錯覚に陥る。



そう、ここで錯覚に陥ったのがすべての始まり。



文字化けが発生しないように、マルチバイト文字列関数を使う際は必ず文字エンコードを指定するようにしているが、これは困ったことになった。



2行目以降はUTF-16BEで処理するかとか、いろいろ悩んだけど、結局


$file = file_get_contents("UTF-16LE.txt");

mb_convert_variables("UTF-16BE", "UTF-16LE", $file);



こうやってファイル全体の文字エンコードを、UTF-16BE に変換してから後の処理を行うことにした。



これね、既存のシステムから出力されるファイルを取り込んで云々の仕事をしたときの話。

コメント

このブログの人気の投稿

Chatの「メッセージは投稿者によって削除されました」を非表示にする方法

Chrome拡張機能を自作してやってみよう! ♪できるかな できるかな ・・・ 無理ぽ (´・ω・`) iframeの中に、実際のメッセージのやり取りが表示されるので、 $(function(){ $('iframe[name^="spareFrame"]').contents().find('[data-is-tombstoned="true"]').hide(); }); って書いたけど An iframe which has both allow-scripts and allow-same-origin for its sandbox attribute can escape its sandboxing. って言われてダメだったよ・・・

cron で実行されたコマンドから出力されたメッセージをメールで送信する方法

本題に入る前に、まずは、sh/bash系のシェルで標準出力と標準エラー出力をリダイレクトする方法から。 現在使用中のシェルを確認するには、 # echo $SHELL とすれば確認できる。 その他、利用できるシェルを確認するには # cat /etc/shells とする。 ■リダイレクトについて commandコマンドが出力を伴うコマンドの場合、commandコマンドの出力をresult.txtへ出力するには # command > result.txt コマンドの実効結果を別のコマンドの入力値とする場合は、|(パイプ)でつなげる。 # command1 | command2 ■標準出力と標準エラー出力について ・標準出力 正常結果やコマンド実行途中に出力されるメッセージの出力先。 ・標準エラー出力 異常終了時のメッセージやエラーメッセージなど、ユーザーに気づいてほしいメッセージの出力先。 ■標準出力と標準エラー出力の両方をリダイレクトする 先のcommandコマンドのリダイレクト例のうち、result.txtへのリダイレクトは、標準出力をリダイレクトしている。そのため、標準エラー出力はリダイレクトされず、仮にcommandコマンドが標準エラー出力へメッセージを出力した場合は、result.txtではなくコンソールへ出力(表示)される。 標準出力と標準エラー出力の両方をリダイレクトして、result.txtへ出力するには、 # command > result.txt 2>&1 とする。 なお、上の例を省略なしで記述すると # command 1> result.txt 2>&1 となる。 この「1」「2」の番号について。 ・1:標準出力。通常はコンソール画面。 ・2:標準エラー出力。通常はコンソール画面。 となっている。 ちなみに、「0」は「標準入力」。通常はキーボードからの入力。 例:標準エラー出力を error.log へ出力する。標準出力はコンソールへ表示する。 # command 2> error.log 例:標準出力は result.log 、標準エラー出力は error.log へ...

cron で bash を使うまでのお話

おー、ほぼ一年ぶりの更新だ・・・ 普段、何気に設定していた cron なんですが、 「PATHは通っていないから、フルパス書いて」 「#!/bin/bash はお呪い」 っていう程度の認識しかなかった。 ので、一からお勉強。 まず、cron の シェル等を確認するには、cron実行ユーザーで [root@localhost ~]# crontab -e * * * * * printenv >/var/tmp/env.txt ってやって1分待つ。 で、1分後に出来上がったファイルの中身を見てみる [root@localhost ~]# cat /var/tmp/env.txt ... SHELL=/bin/sh USER=root PATH=/usr/bin:/bin PWD=/root LANG=ja_JP.UTF-8 SHLVL=1 HOME=/root LOGNAME=root XDG_RUNTIME_DIR=/run/user/0 ... あー、shだ。 どおりで、/bin/bash って書かないと、動かない記述があるわけだ。