Copied!
                      
                        
                        
                      
                    
                  
                
                
                  import numpy as np
import pandas as pd

                
                
                  import numpy as np import pandas as pd


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  import numpy as np
import pandas as pd

                
                
                  import numpy as np import pandas as pd


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  import urllib
f = urllib.request.urlopen('http://simplystatistics.tumblr.com/')

                
                
                  import urllib f = urllib.request.urlopen('http://simplystatistics.tumblr.com/')


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  import urllib
f = urllib.request.urlopen('http://simplystatistics.tumblr.com/')

                
                
                  import urllib f = urllib.request.urlopen('http://simplystatistics.tumblr.com/')


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  lines = []
for i in range(150):
    lines.append(f.readline())

                
                
                  lines = [] for i in range(150): lines.append(f.readline())


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  lines = []
for i in range(150):
    lines.append(f.readline())

                
                
                  lines = [] for i in range(150): lines.append(f.readline())


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(lines[1]), len(lines[44]), len(lines[121])

                
                
                  len(lines[1]), len(lines[44]), len(lines[121])

(920, 7, 26)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(lines[1]), len(lines[44]), len(lines[121])

                
                
                  len(lines[1]), len(lines[44]), len(lines[121])

(920, 7, 26)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  housing = pd.read_csv('ss06hid.csv')

                
                
                  housing = pd.read_csv('ss06hid.csv')


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  housing = pd.read_csv('ss06hid.csv')

                
                
                  housing = pd.read_csv('ss06hid.csv')

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6496 entries, 0 to 6495
Columns: 188 entries, RT to wgtp80
dtypes: float64(97), int64(90), object(1)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6496 entries, 0 to 6495
Columns: 188 entries, RT to wgtp80
dtypes: float64(97), int64(90), object(1)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(housing[housing['VAL'] >= 24])

                
                
                  len(housing[housing['VAL'] >= 24])

53


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(housing[housing['VAL'] >= 24])

                
                
                  len(housing[housing['VAL'] >= 24])

53


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(housing[(housing['BDS'] == 3) & (housing['RMS'] == 4)])

                
                
                  len(housing[(housing['BDS'] == 3) & (housing['RMS'] == 4)])

148


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(housing[(housing['BDS'] == 3) & (housing['RMS'] == 4)])

                
                
                  len(housing[(housing['BDS'] == 3) & (housing['RMS'] == 4)])

148


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(housing[(housing['BDS'] == 2) & (housing['RMS'] == 5)])

                
                
                  len(housing[(housing['BDS'] == 2) & (housing['RMS'] == 5)])

386


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(housing[(housing['BDS'] == 2) & (housing['RMS'] == 5)])

                
                
                  len(housing[(housing['BDS'] == 2) & (housing['RMS'] == 5)])

386


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(housing[(housing['BDS'] == 2) & (housing['RMS'] == 7)])

                
                
                  len(housing[(housing['BDS'] == 2) & (housing['RMS'] == 7)])

49


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(housing[(housing['BDS'] == 2) & (housing['RMS'] == 7)])

                
                
                  len(housing[(housing['BDS'] == 2) & (housing['RMS'] == 7)])

49


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  agricultureLogical = (housing['ACR'] >= 3) & (housing['AGS'] >= 6)

                
                
                  agricultureLogical = (housing['ACR'] >= 3) & (housing['AGS'] >= 6)

pandas.core.series.Series


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  agricultureLogical = (housing['ACR'] >= 3) & (housing['AGS'] >= 6)

                
                
                  agricultureLogical = (housing['ACR'] >= 3) & (housing['AGS'] >= 6)

pandas.core.series.Series


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  np.where(agricultureLogical == True)

                
                
                  np.where(agricultureLogical == True)

(array([ 124,  237,  261,  469,  554,  567,  607,  642,  786,  807,  823,
        848,  951,  954, 1032, 1264, 1274, 1314, 1387, 1606, 1628, 1650,
       1855, 1918, 2100, 2193, 2402, 2442, 2538, 2579, 2654, 2679, 2739,
       2837, 2964, 3130, 3132, 3162, 3290, 3369, 3401, 3584, 3651, 3851,
       3861, 3911, 4022, 4044, 4106, 4112, 4116, 4184, 4197, 4309, 4342,
       4353, 4447, 4452, 4460, 4717, 4816, 4834, 4909, 5139, 5198, 5235,
       5325, 5416, 5530, 5573, 5893, 6032, 6043, 6088, 6274, 6375, 6419]),)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  np.where(agricultureLogical == True)

                
                
                  np.where(agricultureLogical == True)

(array([ 124,  237,  261,  469,  554,  567,  607,  642,  786,  807,  823,
        848,  951,  954, 1032, 1264, 1274, 1314, 1387, 1606, 1628, 1650,
       1855, 1918, 2100, 2193, 2402, 2442, 2538, 2579, 2654, 2679, 2739,
       2837, 2964, 3130, 3132, 3162, 3290, 3369, 3401, 3584, 3651, 3851,
       3861, 3911, 4022, 4044, 4106, 4112, 4116, 4184, 4197, 4309, 4342,
       4353, 4447, 4452, 4460, 4717, 4816, 4834, 4909, 5139, 5198, 5235,
       5325, 5416, 5530, 5573, 5893, 6032, 6043, 6088, 6274, 6375, 6419]),)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  q7subsetDataFrame = housing[agricultureLogical]

                
                
                  q7subsetDataFrame = housing[agricultureLogical]


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  q7subsetDataFrame = housing[agricultureLogical]

                
                
                  q7subsetDataFrame = housing[agricultureLogical]


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  q7subsetDataFrame

                
                q7subsetDataFrame

<class 'pandas.core.frame.DataFrame'>
Int64Index: 77 entries, 124 to 6419
Columns: 188 entries, RT to wgtp80
dtypes: float64(97), int64(90), object(1)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  q7subsetDataFrame

                
                q7subsetDataFrame

<class 'pandas.core.frame.DataFrame'>
Int64Index: 77 entries, 124 to 6419
Columns: 188 entries, RT to wgtp80
dtypes: float64(97), int64(90), object(1)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  l1 = len(q7subsetDataFrame)
l1

                
                l1 = len(q7subsetDataFrame) l1

77


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  l1 = len(q7subsetDataFrame)
l1

                
                l1 = len(q7subsetDataFrame) l1

77


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  l2 = len(q7subsetDataFrame['MRGX'].dropna())
l2

                
                
                  l2 = len(q7subsetDataFrame['MRGX'].dropna()) l2

69


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  l2 = len(q7subsetDataFrame['MRGX'].dropna())
l2

                
                
                  l2 = len(q7subsetDataFrame['MRGX'].dropna()) l2

69

8

8


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  splits = []
for col in housing.columns:
    splits.append(col.split("wgtp"))

                
                
                  splits = [] for col in housing.columns: splits.append(col.split("wgtp"))


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  splits = []
for col in housing.columns:
    splits.append(col.split("wgtp"))

                
                
                  splits = [] for col in housing.columns: splits.append(col.split("wgtp"))


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  splits[122]

                
                splits[122]

['', '15']


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  splits[122]

                
                splits[122]

['', '15']


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  housing['YBL'].quantile(0)

                
                housing['YBL'].quantile(0)

-1.0


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  housing['YBL'].quantile(0)

                
                housing['YBL'].quantile(0)

-1.0


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  housing['YBL'].quantile(1)

                
                housing['YBL'].quantile(1)

25.0


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  housing['YBL'].quantile(1)

                
                housing['YBL'].quantile(1)

25.0


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  populations = pd.read_csv('ss06pid.csv')

                
                
                  populations = pd.read_csv('ss06pid.csv')


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  populations = pd.read_csv('ss06pid.csv')

                
                
                  populations = pd.read_csv('ss06pid.csv')


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  pd.merge(populations, housing, on='SERIALNO', how='outer')

                
                
                  pd.merge(populations, housing, on='SERIALNO', how='outer')

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15451 entries, 0 to 15450
Columns: 426 entries, RT_x to wgtp80
dtypes: float64(333), int64(89), object(4)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  pd.merge(populations, housing, on='SERIALNO', how='outer')

                
                
                  pd.merge(populations, housing, on='SERIALNO', how='outer')

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15451 entries, 0 to 15450
Columns: 426 entries, RT_x to wgtp80
dtypes: float64(333), int64(89), object(4)

Coursera Data Analysis - Quiz 2 on python

Question 2¶

Question 3¶

Question 4¶

Question 5¶

Question 6¶

Question 7¶

Question 8¶

Question 9¶

Question 10¶

Conclusion¶