df.groupby(['target']).count()
Cieľ | údaje |
---|---|
Negatívny | 103210 |
Pozitívny | 211082 |
Práve teraz, moje pozitívne údajov je príliš veľký. Chcem vymazať 50% riadkov, ktorého hodnota v Target
stĺpec je Positive
. Ako môžem to urobiť?
df.groupby(['target']).count()
Cieľ | údaje |
---|---|
Negatívny | 103210 |
Pozitívny | 211082 |
Práve teraz, moje pozitívne údajov je príliš veľký. Chcem vymazať 50% riadkov, ktorého hodnota v Target
stĺpec je Positive
. Ako môžem to urobiť?
Aby polovica Positive
riadky, sample
50% Positive
riadky pomocou frac=0.5
a drop
tieto indexy:
indexes = df[df.target == 'Positive'].sample(frac=0.5).index
df = df.drop(indexes)
Aby presne 100K Positive
riadky, sample
100K Positive
riadky pomocou n=100_000
a concat
s nimi Negative
riadkov:
df = pd.concat([
df[df.target == 'Negative'],
df[df.target == 'Positive'].sample(n=100_000)
])