PMLE#3(data-collaboration)

PMLE#3(data-collaboration)

カテゴリカル変数「都市名」が 50000 種類存在します。ディープラーニングモデルで最も効率的に表現する手法はどれですか。

ディスカッション 0

正解:B

正解の根拠

高カーディナリティのカテゴリは Embedding 層で密ベクトルに変換することでメモリ効率と汎化性能が向上します。

手法次元数適用
Embedding数十〜数百高カーディナリティ
One-hotカテゴリ数と同じ低カーディナリティ

不正解の理由

  • B は次元爆発でメモリと計算量が膨大になります
  • C は順序関係のない値に順序を付けてしまいます
  • D は情報損失が大きく精度低下を招きます

参考:Embeddings


コメント

コメント

コメントする

目次