This is a manifest of passengers from on the doomed Titanic cruise. It was downloaded from the Kaggle Machine Learning Challenge in 2014 by Catherine D'Ignazio.

891 linhas de dado agrupado em 12 colunas.
Aqui tem alguns metadado sobre cada coluna.

.

PassengerId

  • Esta coluna está cheia numbers
  • O menor número é 1.0
  • O maior número é 891.0
  • O total é 397386.0
  • A média é 446.0
  • A mediana é 446.0
  • O desvio padrão é 257.21
  • There are 891 unique values
valor frequêcia
1 - 90 89
90 - 179 89
179 - 268 89
268 - 357 89
357 - 446 89
446 - 535 89
535 - 624 89
624 - 713 89
713 - 802 89
802 - 891 89

PassengerId

  • Esta coluna está cheia numbers
  • O menor número é 1.0
  • O maior número é 891.0
  • O total é 397386.0
  • A média é 446.0
  • A mediana é 446.0
  • O desvio padrão é 257.21
  • There are 891 unique values

Survived

  • Esta coluna está cheia numbers
  • Os valores mais frequentes nesta coluna são:
    • 0.0 (549)
    • 1.0 (342)
valor frequêcia
0.0 549
1.0 342

Survived

  • Esta coluna está cheia numbers
  • Os valores mais frequentes nesta coluna são:
    • 0.0 (549)
    • 1.0 (342)

Pclass

  • Esta coluna está cheia numbers
  • Os valores mais frequentes nesta coluna são:
    • 1.0 (216)
    • 2.0 (184)
    • 3.0 (491)
valor frequêcia
1.0 216
2.0 184
3.0 491

Pclass

  • Esta coluna está cheia numbers
  • Os valores mais frequentes nesta coluna são:
    • 1.0 (216)
    • 2.0 (184)
    • 3.0 (491)

Name

  • Esta coluna está cheia text
  • The longest string has 82 characters
  • There are 891 unique values
valor frequêcia
mr 521
miss 182
mrs 129
william 64
john 44
master 40
henry 34
george 24
james 24
charles 24
thomas 21
mary 20
edward 18
anna 17
joseph 16
johan 15
frederick 15
elizabeth 15
samuel 13
richard 13

Name

  • Esta coluna está cheia text
  • The longest string has 82 characters
  • There are 891 unique values

Sex

  • Esta coluna está cheia text
  • Os valores exclusivos nesta coluna são:
    • male (577)
    • female (314)
valor frequêcia
male 577
female 314

Sex

  • Esta coluna está cheia text
  • Os valores exclusivos nesta coluna são:
    • male (577)
    • female (314)

Age

  • Esta coluna está cheia numbers
  • O menor número é 0.42
  • O maior número é 80.0
  • O total é 21205.17
  • A média é 29.7
  • A mediana é 28.0
  • O desvio padrão é 14.52
  • Existem 177 linha com dados faltantes
  • There are 88 unique values
valor frequêcia
0 - 8 54
8 - 16 46
16 - 24 177
24 - 32 169
32 - 40 118
40 - 48 70
48 - 56 45
56 - 64 24
64 - 72 9
72 - 80 1

Age

  • Esta coluna está cheia numbers
  • O menor número é 0.42
  • O maior número é 80.0
  • O total é 21205.17
  • A média é 29.7
  • A mediana é 28.0
  • O desvio padrão é 14.52
  • Existem 177 linha com dados faltantes
  • There are 88 unique values

SibSp

  • Esta coluna está cheia numbers
  • Os valores mais frequentes nesta coluna são:
    • 0.0 (608)
    • 1.0 (209)
    • 2.0 (28)
    • 3.0 (16)
    • 4.0 (18)
    • 5.0 (5)
    • 8.0 (7)
valor frequêcia
0.0 608
1.0 209
2.0 28
3.0 16
4.0 18
5.0 5
8.0 7

SibSp

  • Esta coluna está cheia numbers
  • Os valores mais frequentes nesta coluna são:
    • 0.0 (608)
    • 1.0 (209)
    • 2.0 (28)
    • 3.0 (16)
    • 4.0 (18)
    • 5.0 (5)
    • 8.0 (7)

Parch

  • Esta coluna está cheia numbers
  • Os valores mais frequentes nesta coluna são:
    • 0.0 (678)
    • 1.0 (118)
    • 2.0 (80)
    • 3.0 (5)
    • 4.0 (4)
    • 5.0 (5)
    • 6.0 (1)
valor frequêcia
0.0 678
1.0 118
2.0 80
3.0 5
4.0 4
5.0 5
6.0 1

Parch

  • Esta coluna está cheia numbers
  • Os valores mais frequentes nesta coluna são:
    • 0.0 (678)
    • 1.0 (118)
    • 2.0 (80)
    • 3.0 (5)
    • 4.0 (4)
    • 5.0 (5)
    • 6.0 (1)

Ticket

  • Esta coluna está cheia numbers
  • O menor número é 693.0
  • O maior número é 3101298.0
  • O total é 172070561.0
  • A média é 260318.55
  • A mediana é 3101265.0
  • O desvio padrão é 471252.39
  • There are 514 unique values
valor frequêcia
693 - 310754 389
310754 - 620814 256
620814 - 930874 0
930874 - 1240935 0
1240935 - 1550996 0
1550996 - 1861056 0
1861056 - 2171116 0
2171116 - 2481177 0
2481177 - 2791238 0
2791238 - 3101298 15

Ticket

  • Esta coluna está cheia numbers
  • O menor número é 693.0
  • O maior número é 3101298.0
  • O total é 172070561.0
  • A média é 260318.55
  • A mediana é 3101265.0
  • O desvio padrão é 471252.39
  • There are 514 unique values

Fare

  • Esta coluna está cheia numbers
  • O menor número é 0.0
  • O maior número é 512.3292
  • O total é 28693.95
  • A média é 32.2
  • A mediana é 14.45
  • O desvio padrão é 49.67
  • There are 248 unique values
valor frequêcia
0 - 51 732
51 - 102 106
102 - 154 31
154 - 205 2
205 - 256 11
256 - 307 6
307 - 359 0
359 - 410 0
410 - 461 0
461 - 512 0

Fare

  • Esta coluna está cheia numbers
  • O menor número é 0.0
  • O maior número é 512.3292
  • O total é 28693.95
  • A média é 32.2
  • A mediana é 14.45
  • O desvio padrão é 49.67
  • There are 248 unique values

Cabin

  • Esta coluna está cheia text
  • Os valores mais frequentes nesta coluna são:
    • B96 B98 (4)
    • C23 C25 C27 (4)
    • G6 (4)
    • C22 C26 (3)
    • D (3)
  • The longest string has 15 characters
  • Existem 687 linha com dados faltantes
  • There are 147 unique values
valor frequêcia
B96 B98 4
C23 C25 C27 4
G6 4
C22 C26 3
D 3
Outro 186

Cabin

  • Esta coluna está cheia text
  • Os valores mais frequentes nesta coluna são:
    • B96 B98 (4)
    • C23 C25 C27 (4)
    • G6 (4)
    • C22 C26 (3)
    • D (3)
  • The longest string has 15 characters
  • Existem 687 linha com dados faltantes
  • There are 147 unique values

Embarked

  • Esta coluna está cheia text
  • Os valores exclusivos nesta coluna são:
    • S (644)
    • C (168)
    • Q (77)
  • Existem 2 linha com dados faltantes
valor frequêcia
S 644
C 168
Q 77

Embarked

  • Esta coluna está cheia text
  • Os valores exclusivos nesta coluna são:
    • S (644)
    • C (168)
    • Q (77)
  • Existem 2 linha com dados faltantes

O que eu faço em seguida?

Entender os dados em seu arquivo csv é o primeiro passo para analisá-lo para histórias. Olhar para colunas individuais pode ajudar a identificar questões que poderiam ser divertidos para perguntar sobre seus dados. Por exemplo, não é surpreendente que o "0.0" é o valor mais frequente na coluna SibSp ? Faz algum sentido comparar a coluna PassengerId para a coluna Parch ? Existem outros conjuntos de dados que você poderia encontrar para fazer perguntas interessantes sobre a coluna SibSp?

Fazer esses tipos de perguntas é o primeiro passo para entender os dados que você tem, e que tipo de histórias você pode encontrar. Vá para o guia de atividades para obter mais ajuda sobre fazer perguntas de conjuntos de dados.

Try these other tools to do more full-fledged analysis: