【Python】日本語の扱い方(Unicode、UTF-8、Shift-JIS、 EUC-JP)

スポンサーリンク

この記事では、Pythonで日本語を使う方法をソースコード付きで解説します。

スポンサーリンク

日本語の扱い方

Pythonでは、UTF-8、Shift-JIS、 EUC-JPなどの文字コードとは別にUnicode文字列というものが存在します。
PythonではUnicode文字列を使って日本語を扱うことが出来ます。

Unicode文字列の使った日本語の扱い方はいくつかあります。

data1 = u”にゃんぱす”
data2 = unicode(“にゃんぱす”, “utf-8”)

1行目は、ソースコード中に日本語文字を書く場合に使います。
2行目は、ファイルなどから読み込んだ文字列を変換する場合に使います。
また、UnicodeからUTF-8, Shift-JIS, EUC-JPへ変換するには以下のようにします。

data = u”にゃんぱす”
data.encode(“utf-8”)
data.encode(“shift-jis”)
data.encode(“euc-jp”)

逆にUTF-8, Shift-JIS, EUC-JPからUnicodeへ変換するには以下のようにします。

data = “にゃんぱす”
unicode(data, “utf-8”)

【おすすめ関連記事】
Python入門 基本文法

スポンサーリンク

シェア&フォローお願いします!