カテゴリー変数・とは？初心者が押さえる基本と身近な例共起語・同意語・対義語も併せて解説！

この記事を書いた人

岡田康介

名前：岡田康介（おかだこうすけ）ニックネーム：コウ、または「こうちゃん」年齢：28歳性別：男性職業：ブロガー（SEOやライフスタイル系を中心に活動）居住地：東京都（都心のワンルームマンション）出身地：千葉県船橋市身長：175cm 血液型：O型誕生日：1997年4月3日趣味：カフェ巡り、写真撮影、ランニング、読書（自己啓発やエッセイ）、映画鑑賞、ガジェット収集性格：ポジティブでフランク、人見知りはしないタイプ。好奇心旺盛で新しいものにすぐ飛びつく性格。計画性がある一方で、思いついたらすぐ行動するフットワークの軽さもある。 1日（平日）のタイムスケジュール 7:00 起床：軽くストレッチして朝のニュースをチェック。ブラックコーヒーで目を覚ます。 7:30 朝ラン：近所の公園を30分ほどランニング。頭をリセットして新しいアイデアを考える時間。 8:30 朝食＆SNSチェック：トーストやヨーグルトを食べながら、TwitterやInstagramでトレンドを確認。 9:30 ブログ執筆スタート：カフェに移動してノートPCで記事を書いたり、リサーチを進める。 12:30 昼食：お気に入りのカフェや定食屋でランチ。食事をしながら読書やネタ探し。 14:00 取材・撮影・リサーチ：街歩きをしながら写真を撮ったり、新しいお店を開拓してネタにする。 16:00 執筆＆編集作業：帰宅して集中モードで記事を仕上げ、SEOチェックやアイキャッチ作成も行う。 19:00 夕食：自炊か外食。たまに友人と飲みに行って情報交換。 21:00 ブログのアクセス解析・改善点チェック：Googleアナリティクスやサーチコンソールを見て数字を分析。 22:00 映画鑑賞や趣味の時間：Amazonプライムで映画やドラマを楽しむ。 24:00 就寝：明日のアイデアをメモしてから眠りにつく。

カテゴリー変数・とは？初心者向けの基本解説

カテゴリー変数とはデータの値がさまざまな「分類」を表し大きさの順序を持たない変数のことを指します学校のテストデータやアンケートの回答などがこのカテゴリー変数の代表的な例です 数値の大きさで比べる必要はなくどのカテゴリに属するかが重要です

1. カテゴリー変数と数値変数の違い

まずは基本の違いを押さえましょう数値変数はその値自体が数量を表し大きさを比較できます一方カテゴリー変数はグループを表すだけで大きさの比較は意味をもちません例えば性別の男性と女性を比較してもその順序を意味づけることは通常ありませんこの点が点と点を結ぶ線が引かれているように見える数値変数と異なる点です

2. カテゴリー変数の種類

カテゴリー変数には主に nominal（名義尺度） と ordinal（順序尺度） の二つがあります Nominal は順序がなく等しいか異なるかだけを区別します代表的な例は性別や血液型都道府県名などですOrdinal はカテゴリ間に順序が存在します例えば評価レベルの低中高や学力テストの級別などです

3. なぜカテゴリー変数を理解するのか

データ分析を行うときカテゴリー変数をどう扱うかが結果に大きく影響しますもし数値として扱ってしまうと本来の意味が崩れます逆に適切に扱えばグルーピング比較集計が正しく行え例えば性別別の平均値を比較することや千人規模のデータでの傾向を見つけやすくなります

4. 実生活の例とエンコードの考え方

身近な例を挙げてみましょう例1 性別男性女性例2 血液型 A B AB O 例3 評価低中高これらはすべてカテゴリー変数です解析ではこのまま使えないことが多く One hot encoding と呼ばれる方法 で各カテゴリをNumercialなダミー変数に変換しますつまり性別を 0 と 1 の二つの列に変えるようなイメージです

5. データ分析での具体的な取り扱い

データ分析の現場ではプログラミング言語や表計算ソフトを使ってカテゴリー変数を処理します一般的な手順は次のとおりです 1) カテゴリを整理して重複をなくす 2) 欠損値があれば補完する 3) One hot encoding などで数値データへ変換する 4) 変換後のデータを統計手法や機械学習アルゴリズムへ渡すこれによりカテゴリごとの影響を正しく評価できます

表で見るカテゴリー変数の例とエンコード

名称	例	特徴	エンコード方法
性別	男性女性	nominal 名義尺度	One hot など
血液型	A B AB O	nominal	One hot など
評価	低中高	ordinal 順序尺度	順序エンコードまたは One hot