プログラミング

CでUTF-8文字列を扱う

思いつきとリハビリの意味を込めて、学生時代に作成したプログラム(カナ文字列を1文字ずつに分解してさらに音素情報を付与してごにょごにょする)をUTF-8化した。以前はEUC-JPで文字列を扱っていたので、入力文字列を2バイトずつ読み込めば良かったのだけ…

LIBSVM

こんなのがあったとは。 LIBSVM -- A Library for Support Vector Machines Python, R (also Splus), MATLAB, Perl, Ruby, Weka, Common LISP, CLISP, Haskell and LabVIEW interfaces. C# .NET code is available. 色々対応していてすごく便利そう。

Perlで配列を初期化する方法

以下は要素数10の配列を初期値0にセットする場合。 配列を任意の一文字で初期化するには - 燈明日記 @Array = ("0") x 10; なんとなく好き。

続・日本語文字列を1文字ずつ

今度は、std::mapに1文字ずつ格納して自動的にソートさせておき、予めソート済みのデータファイルと1行ずつチェックして該当行を読み出す部分でエラーを発見。 これまた日本語のソート順が環境だったか文字コードだったかに依存して変わっていたため読み込め…

日本語文字列を1文字ずつ

以前作成した日本語を1文字ずつに分解して処理するプログラムが、よその環境に移植したら誤動作していた。いろいろ粗探しをした結果、文字コード依存の処理になっていたのが原因だった模様。初歩的ミス。 今回のミスはこんな風に生まれました。 CentOSでプロ…