df.groupby(['target']).count()
Destinazione | dati |
---|---|
Negativo | 103210 |
Positivo | 211082 |
Ora, i miei dati positivi è troppo grande. Voglio eliminare il 50% di righe il cui valore nel Target
colonna è Positive
. Come posso fare?
df.groupby(['target']).count()
Destinazione | dati |
---|---|
Negativo | 103210 |
Positivo | 211082 |
Ora, i miei dati positivi è troppo grande. Voglio eliminare il 50% di righe il cui valore nel Target
colonna è Positive
. Come posso fare?
Per mantenere la metà del Positive
righe, sample
Il 50% del Positive
le righe utilizzando frac=0.5
e drop
tali indici:
indexes = df[df.target == 'Positive'].sample(frac=0.5).index
df = df.drop(indexes)
Per mantenere esattamente 100K Positive
righe, sample
100K Positive
le righe utilizzando n=100_000
e concat
con il Negative
righe:
df = pd.concat([
df[df.target == 'Negative'],
df[df.target == 'Positive'].sample(n=100_000)
])