PMLE#3(data-collaboration)
カテゴリカル変数「都市名」が 50000 種類存在します。ディープラーニングモデルで最も効率的に表現する手法はどれですか。
正解:B
正解の根拠
高カーディナリティのカテゴリは Embedding 層で密ベクトルに変換することでメモリ効率と汎化性能が向上します。
| 手法 | 次元数 | 適用 |
|---|---|---|
| Embedding | 数十〜数百 | 高カーディナリティ |
| One-hot | カテゴリ数と同じ | 低カーディナリティ |
不正解の理由
- B は次元爆発でメモリと計算量が膨大になります
- C は順序関係のない値に順序を付けてしまいます
- D は情報損失が大きく精度低下を招きます
参考:Embeddings

コメント