WEB問題集
小売チェーンが、過去の販売実績から将来の売上金額(連続値)を予測したいと考えています。データ量は数十万行で、特徴量は曜日、気温、プロモーション有無など数十個です。最初に検討すべき教師あり学習タスクの種類はどれですか。
正解:D
正解の根拠
売上金額のように連続的な数値を出力する問題は回帰タスクに分類されます。数十万行・数十特徴量という規模では、線形回帰や勾配ブースティング(XGBoost、LightGBM)が高精度かつ説明性も良好で第一選択になります。
| タスク種別 | 出力 | 例 |
|---|---|---|
| 回帰 | 連続値 | 売上金額、気温 |
| 分類 | 離散ラベル | 購入有無 |
| クラスタリング | グループ | 顧客セグメント |
不正解の理由
- B: 売上金額は連続値であり、二値分類は不適です
- C: 教師なし手法であり目的変数の予測には用いません
- A: 次元削減は前処理であり予測タスク自体ではありません
参考:Vertex AI 概要
画像分類タスクで、224x224 のカラー画像 10 万枚を学習させる必要があります。最も適したモデルアーキテクチャはどれですか。
正解:C
正解の根拠
画像のような空間的局所性を持つデータには CNN が最適です。畳み込み層がエッジやテクスチャ等の局所特徴を階層的に抽出し、平行移動不変性も自然に得られます。ResNet や EfficientNet は ImageNet での事前学習重みも豊富です。
| データ | 推奨アーキテクチャ |
|---|---|
| 画像 | CNN, Vision Transformer |
| 系列 | RNN, Transformer |
| 表形式 | 勾配ブースティング |
不正解の理由
- B: RNN は系列データ向けで、画像の空間構造を十分活用できません
- A: 線形モデルでは複雑な視覚パターンを捉えられません
- D: 単体決定木は画素入力に対して表現力が不足します
顧客レビューの感情を5段階で分類するモデルを Vertex AI 上で構築します。テキスト系列を扱うために有効なアーキテクチャを 2 つ選んでください。
(2つ選択)
正解:A, B
正解の根拠
テキスト分類には系列依存を学習できる Transformer や LSTM が適しています。特に BERT 系は事前学習済み表現により少量データでも高精度を実現します。LSTM は長距離依存を持つ古典的な選択肢として依然有効です。
| モデル | 長所 |
|---|---|
| BERT | 双方向文脈、転移学習 |
| LSTM | 軽量、系列順序を保持 |
不正解の理由
- C: 教師なし手法でラベル予測には不向きです
- D: 次元削減のみでは分類器になりません
- E: 関連ルール抽出はトランザクション分析向けです
少量の専門画像(500 枚)でしか学習できない医療画像分類タスクがあります。精度を確保するために最も有効なアプローチはどれですか。
正解:C
正解の根拠
500 枚という小規模データでは、大規模データセットで学習済みのモデルを Fine-tuning する転移学習が最も効果的です。汎用的な低レベル特徴は再利用でき、上位層のみを再学習させることで過学習を抑制できます。
| 戦略 | 必要データ量 |
|---|---|
| スクラッチ学習 | 数十万以上 |
| Fine-tuning | 数百〜数千 |
| Few-shot | 数十 |
不正解の理由
- B: 500 枚ではパラメータ最適化に不十分で過学習します
- A: 線形回帰は画像分類タスクに不適です
- D: 教師なしクラスタは教師ありラベル予測の代わりになりません
多クラス分類モデルの出力層に最も適切な活性化関数はどれですか。
正解:B
正解の根拠
多クラス分類では出力ノード間の確率を相互排他的に正規化する Softmax が標準的です。出力ベクトルの総和が 1 となり、Cross-entropy 損失と組み合わせて学習が安定します。
| タスク | 出力活性化 |
|---|---|
| 多クラス分類 | Softmax |
| 多ラベル分類 | Sigmoid(各ノード) |
| 回帰 | 恒等 |
不正解の理由
- A: 多ラベル向けで、相互排他クラスには適しません
- C: 中間層用、確率正規化はできません
- D: 回帰タスク向けです
