Ako odstrániť 50% z riadkov, ktoré majú určitú hodnotu stĺpca

Question 1

df.groupby(['target']).count()

Cieľ	údaje
Negatívny	103210
Pozitívny	211082

Práve teraz, moje pozitívne údajov je príliš veľký. Chcem vymazať 50% riadkov, ktorého hodnota v Target stĺpec je Positive. Ako môžem to urobiť?

Question 2

Aby polovica Positive riadky, sample 50% Positive riadky pomocou frac=0.5 a drop tieto indexy:

indexes = df[df.target == 'Positive'].sample(frac=0.5).index
df = df.drop(indexes)

Aby presne 100K Positive riadky, sample 100K Positive riadky pomocou n=100_000 a concat s nimi Negative riadkov:

df = pd.concat([
    df[df.target == 'Negative'],
    df[df.target == 'Positive'].sample(n=100_000)
])

tdy · Answer 1 · 2021-11-24T04:27:20

Aby polovica Positive riadky, sample 50% Positive riadky pomocou frac=0.5 a drop tieto indexy:

indexes = df[df.target == 'Positive'].sample(frac=0.5).index
df = df.drop(indexes)

Aby presne 100K Positive riadky, sample 100K Positive riadky pomocou n=100_000 a concat s nimi Negative riadkov:

df = pd.concat([
    df[df.target == 'Negative'],
    df[df.target == 'Positive'].sample(n=100_000)
])

Otázka