Ako správne používať ImageDataGenerator v Keras?

0

Otázka

Som hrať s rozšírením údajov v Keras v poslednej dobe a ja som s použitím základných ImageDataGenerator. Naučil som sa tvrdo, to je vlastne generátor, nie iterator (pretože type(train_aug_ds) dáva <class 'keras.preprocessing.image.DirectoryIterator'> Myslel som, že to je iterator). Tiež som skontroloval niekoľko blogov o jeho použití, ale oni nemajú odpovede na všetky moje otázky.

Tak som načítané dáta, ako je tento:

train_aug = ImageDataGenerator(
    rescale=1./255,
    horizontal_flip=True,
    height_shift_range=0.1,
    width_shift_range=0.1,
    brightness_range=(0.5,1.5),
    zoom_range = [1, 1.5],
)
train_aug_ds = train_aug.flow_from_directory(
    directory='./train',
    target_size=image_size,
    batch_size=batch_size,
)

A trénovať svoj model som urobil nasledujúce:

model.fit(
    train_aug_ds,
    epochs=150,
    validation_data=(valid_aug_ds,),
)

A fungovalo to. Som trochu zmätená, ako to funguje, pretože train_aug_ds je generátor, tak to by mala dať nekonečne veľká množina údajov. A dokumentácia hovorí:

Pri prechode nekonečne opakovanie dokumentačný materiál, musíte zadať steps_per_epoch argument.

Čo som neurobil, napriek tomu, že to funguje. Robí to nejako usudzovať, počet krokov? Tiež, to použiť len augmented údaje, alebo používa aj non-augmented obrazy v dávke?

Takže v podstate, moja otázka je, ako používať tento generátor správne s funkciou fit chcete mať všetky údaje v mojej prípravy nastaviť, vrátane pôvodnom, non-augmented obrázky a rozšírená obrázky, a prechádzať sa niekoľko krát/kroky (práve teraz, zdá sa, že to robí iba jeden krok za epoch)?

keras python tensorflow
2021-11-23 11:26:56
1

Najlepšiu odpoveď

1

Myslím si, že dokumentácia môže byť veľmi mätúce a viem si predstaviť, správanie sa líši v závislosti od vašej Tensorflow a Keras verziu. Napríklad, v tomto príspevku, užívateľ je opisom presné správanie ste očakávali. Vo všeobecnosti, flow_from_directory() metóda umožňuje čítať obrázky priamo z adresára a rozšíriť ich zatiaľ čo model je trénovaní a ako už bolo uvedené tu, to iterates pre každú vzorku v každom priečinku každej doby. Pomocou týchto môžete napríklad zistiť, že je to tak (na TF 2.7) pri pohľade na krokov na epochu v progress bar:

import tensorflow as tf

BATCH_SIZE = 64

flowers = tf.keras.utils.get_file(
    'flower_photos',
    'https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz',
    untar=True)

img_gen = tf.keras.preprocessing.image.ImageDataGenerator(
    rescale=1./255,
    horizontal_flip=True,
)

train_ds = img_gen.flow_from_directory(flowers, batch_size=BATCH_SIZE, shuffle=True, class_mode='sparse')
num_classes = 5

model = tf.keras.Sequential([
  tf.keras.layers.Conv2D(16, 3, padding='same', activation='relu', input_shape=(256, 256, 3)),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Conv2D(32, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Conv2D(64, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Flatten(),
  tf.keras.layers.Dense(128, activation='relu'),
  tf.keras.layers.Dense(num_classes)
])

model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True))

epochs=10
history = model.fit(
  train_ds,
  epochs=epochs
)
Found 3670 images belonging to 5 classes.
Epoch 1/10
 6/58 [==>...........................] - ETA: 3:02 - loss: 2.0608

Ak ste zábal flow_from_directory s tf.data.Dataset.from_generator ako toto:

train_ds = tf.data.Dataset.from_generator(
    lambda: img_gen.flow_from_directory(flowers, batch_size=BATCH_SIZE, shuffle=True, class_mode='sparse'),
    output_types=(tf.float32, tf.float32))

Môžete si všimnúť, že pokrok bar vyzerá to, pretože steps_per_epoch nebola výslovne vymedzené:

Epoch 1/10
Found 3670 images belonging to 5 classes.
     29/Unknown - 104s 4s/step - loss: 2.0364

A ak pridáte tento parameter, uvidíte kroky v progress bar:

history = model.fit(
  train_ds,
  steps_per_epoch = len(from_directory),
  epochs=epochs
)
Found 3670 images belonging to 5 classes.
Epoch 1/10
 3/58 [>.............................] - ETA: 3:19 - loss: 4.1357

A nakoniec, ak vaša otázka:

Ako používať tento generátor správne s funkciou fit, aby ste všetky údaje v mojej prípravy nastaviť, vrátane pôvodnom, non-augmented obrázky a rozšírená obrázky, a prechádzať sa niekoľko krát/krok?

Môžete jednoducho zvýšiť steps_per_epoch za number of samples // batch_size vynásobením niektoré faktor:

history = model.fit(
  train_ds,
  steps_per_epoch = len(from_directory)*2,
  epochs=epochs
)
Found 3670 images belonging to 5 classes.
Epoch 1/10
  1/116 [..............................] - ETA: 12:11 - loss: 1.5885

Teraz namiesto 58 kroky na epoch máte 116.

2021-11-23 17:22:32

V iných jazykoch

Táto stránka je v iných jazykoch

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................