Copied!
                      
                        
                        
                      
                    
                  
                
                
                  import copper
copper.project.path = '../'

                
                
                  import copper copper.project.path = '../'


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  import copper
copper.project.path = '../'

                
                
                  import copper copper.project.path = '../'


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  train = copper.read_csv('train.csv')

                
                
                  train = copper.read_csv('train.csv')


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  train = copper.read_csv('train.csv')

                
                
                  train = copper.read_csv('train.csv')


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(train), len(train.columns)

                
                len(train), len(train.columns)

(401125, 53)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(train), len(train.columns)

                
                len(train), len(train.columns)

(401125, 53)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  cols1 = train[train.columns[0:12]]

                
                cols1 = train[train.columns[0:12]]


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  cols1 = train[train.columns[0:12]]

                
                cols1 = train[train.columns[0:12]]


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  cols1.head()

                
                cols1.head()


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  cols1.head()

                
                cols1.head()


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1 = copper.Dataset(cols1)

                
                ds1 = copper.Dataset(cols1)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1 = copper.Dataset(cols1)

                
                ds1 = copper.Dataset(cols1)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1.role['SalesID'] = ds1.ID
ds1.role['MachineID'] = ds1.ID
ds1.role['ModelID'] = ds1.ID
ds1.role['datasource'] = ds1.ID
ds1.role['auctioneerID'] = ds1.ID
ds1.role['SalePrice'] = ds1.TARGET

                
                
                  ds1.role['SalesID'] = ds1.ID ds1.role['MachineID'] = ds1.ID ds1.role['ModelID'] =
                  ds1.ID ds1.role['datasource'] = ds1.ID ds1.role['auctioneerID'] = ds1.ID
                  ds1.role['SalePrice'] = ds1.TARGET


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1.role['SalesID'] = ds1.ID
ds1.role['MachineID'] = ds1.ID
ds1.role['ModelID'] = ds1.ID
ds1.role['datasource'] = ds1.ID
ds1.role['auctioneerID'] = ds1.ID
ds1.role['SalePrice'] = ds1.TARGET

                
                
                  ds1.role['SalesID'] = ds1.ID ds1.role['MachineID'] = ds1.ID ds1.role['ModelID'] =
                  ds1.ID ds1.role['datasource'] = ds1.ID ds1.role['auctioneerID'] = ds1.ID
                  ds1.role['SalePrice'] = ds1.TARGET


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1.percent_missing()

                
                ds1.percent_missing()

UsageBand                   0.826391
MachineHoursCurrentMeter    0.644089
auctioneerID                0.050199
fiBaseModel                 0.000000
fiModelDesc                 0.000000
saledate                    0.000000
YearMade                    0.000000
datasource                  0.000000
ModelID                     0.000000
MachineID                   0.000000
SalePrice                   0.000000
SalesID                     0.000000


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1.percent_missing()

                
                ds1.percent_missing()

UsageBand                   0.826391
MachineHoursCurrentMeter    0.644089
auctioneerID                0.050199
fiBaseModel                 0.000000
fiModelDesc                 0.000000
saledate                    0.000000
YearMade                    0.000000
datasource                  0.000000
ModelID                     0.000000
MachineID                   0.000000
SalePrice                   0.000000
SalesID                     0.000000


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1['saledate'].head(2)

                
                ds1['saledate'].head(2)

0    11/16/2006 0:00
1     3/26/2004 0:00
Name: saledate


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1['saledate'].head(2)

                
                ds1['saledate'].head(2)

0    11/16/2006 0:00
1     3/26/2004 0:00
Name: saledate


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1['saledate'] = ds1['saledate'].apply(copper.transform.strptime, args='%m/%d/%Y %H:%M')

                
                
                  ds1['saledate'] = ds1['saledate'].apply(copper.transform.strptime, args='%m/%d/%Y
                  %H:%M')


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1['saledate'] = ds1['saledate'].apply(copper.transform.strptime, args='%m/%d/%Y %H:%M')

                
                
                  ds1['saledate'] = ds1['saledate'].apply(copper.transform.strptime, args='%m/%d/%Y
                  %H:%M')


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1['saledate'].head(2)

                
                ds1['saledate'].head(2)

0    2006-11-16 00:00:00
1    2004-03-26 00:00:00
Name: saledate


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1['saledate'].head(2)

                
                ds1['saledate'].head(2)

0    2006-11-16 00:00:00
1    2004-03-26 00:00:00
Name: saledate


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1['saledate'] = ds1['saledate'].apply(copper.transform.date_to_number)

                
                
                  ds1['saledate'] = ds1['saledate'].apply(copper.transform.date_to_number)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1['saledate'] = ds1['saledate'].apply(copper.transform.date_to_number)

                
                
                  ds1['saledate'] = ds1['saledate'].apply(copper.transform.date_to_number)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1['saledate'].head(2)

                
                ds1['saledate'].head(2)

0    13468
1    12503
Name: saledate


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1['saledate'].head(2)

                
                ds1['saledate'].head(2)

0    13468
1    12503
Name: saledate


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1.type['saledate'] = ds1.NUMBER

                
                ds1.type['saledate'] = ds1.NUMBER


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1.type['saledate'] = ds1.NUMBER

                
                ds1.type['saledate'] = ds1.NUMBER


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1.metadata

                
                ds1.metadata


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1.metadata

                
                ds1.metadata


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  cols2 = train[train.columns[12:20]]
cols2.head(7)

                
                
                  cols2 = train[train.columns[12:20]] cols2.head(7)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  cols2 = train[train.columns[12:20]]
cols2.head(7)

                
                
                  cols2 = train[train.columns[12:20]] cols2.head(7)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds2 = copper.Dataset(cols2)
ds2.percent_missing()

                
                
                  ds2 = copper.Dataset(cols2) ds2.percent_missing()

fiModelSeries         0.858129
fiModelDescriptor     0.820707
ProductSize           0.525460
fiSecondaryDesc       0.342016
ProductGroupDesc      0.000000
ProductGroup          0.000000
state                 0.000000
fiProductClassDesc    0.000000


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds2 = copper.Dataset(cols2)
ds2.percent_missing()

                
                
                  ds2 = copper.Dataset(cols2) ds2.percent_missing()

fiModelSeries         0.858129
fiModelDescriptor     0.820707
ProductSize           0.525460
fiSecondaryDesc       0.342016
ProductGroupDesc      0.000000
ProductGroup          0.000000
state                 0.000000
fiProductClassDesc    0.000000


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1.role['fiModelDesc'] = ds1.REJECTED
ds2.role['ProductGroupDesc'] = ds2.REJECTED
ds2.role['fiProductClassDesc'] = ds2.REJECTED

                
                
                  ds1.role['fiModelDesc'] = ds1.REJECTED ds2.role['ProductGroupDesc'] = ds2.REJECTED
                  ds2.role['fiProductClassDesc'] = ds2.REJECTED


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds1.role['fiModelDesc'] = ds1.REJECTED
ds2.role['ProductGroupDesc'] = ds2.REJECTED
ds2.role['fiProductClassDesc'] = ds2.REJECTED

                
                
                  ds1.role['fiModelDesc'] = ds1.REJECTED ds2.role['ProductGroupDesc'] = ds2.REJECTED
                  ds2.role['fiProductClassDesc'] = ds2.REJECTED


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds2.role['ProductSize'] = ds1.INPUT

                
                
                  ds2.role['ProductSize'] = ds1.INPUT


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds2.role['ProductSize'] = ds1.INPUT

                
                
                  ds2.role['ProductSize'] = ds1.INPUT


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  set(ds2['ProductSize'])

                
                set(ds2['ProductSize'])

set([nan, 'Mini', 'Medium', 'Large / Medium', 'Compact', 'Large', 'Small'])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  set(ds2['ProductSize'])

                
                set(ds2['ProductSize'])

set([nan, 'Mini', 'Medium', 'Large / Medium', 'Compact', 'Large', 'Small'])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds2.metadata

                
                ds2.metadata


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds2.metadata

                
                ds2.metadata


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  cols3 = train[train.columns[20:31]]
cols3.head(5)

                
                
                  cols3 = train[train.columns[20:31]] cols3.head(5)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  cols3 = train[train.columns[20:31]]
cols3.head(5)

                
                
                  cols3 = train[train.columns[20:31]] cols3.head(5)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3 = copper.Dataset(cols3)
ds3.percent_missing()

                
                
                  ds3 = copper.Dataset(cols3) ds3.percent_missing()

Enclosure_Type     0.937129
Blade_Width        0.937129
Blade_Extension    0.937129
Turbocharged       0.802720
Stick              0.802720
Pad_Type           0.802720
Drive_System       0.739829
Ride_Control       0.629527
Transmission       0.543210
Forks              0.521154
Enclosure          0.000810


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3 = copper.Dataset(cols3)
ds3.percent_missing()

                
                
                  ds3 = copper.Dataset(cols3) ds3.percent_missing()

Enclosure_Type     0.937129
Blade_Width        0.937129
Blade_Extension    0.937129
Turbocharged       0.802720
Stick              0.802720
Pad_Type           0.802720
Drive_System       0.739829
Ride_Control       0.629527
Transmission       0.543210
Forks              0.521154
Enclosure          0.000810


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  set(ds3['Enclosure'])

                
                set(ds3['Enclosure'])

set([nan,
     'None or Unspecified',
     'OROPS',
     'EROPS w AC',
     'NO ROPS',
     'EROPS AC',
     'EROPS'])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  set(ds3['Enclosure'])

                
                set(ds3['Enclosure'])

set([nan,
     'None or Unspecified',
     'OROPS',
     'EROPS w AC',
     'NO ROPS',
     'EROPS AC',
     'EROPS'])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3['Enclosure'][ds3['Enclosure'] == 'EROPS w AC'] = 'EROPS AC'
ds3['Enclosure'][ds3['Enclosure'] == 'None or Unspecified'] = np.nan

                
                
                  ds3['Enclosure'][ds3['Enclosure'] == 'EROPS w AC'] = 'EROPS AC'
                  ds3['Enclosure'][ds3['Enclosure'] == 'None or Unspecified'] = np.nan


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3['Enclosure'][ds3['Enclosure'] == 'EROPS w AC'] = 'EROPS AC'
ds3['Enclosure'][ds3['Enclosure'] == 'None or Unspecified'] = np.nan

                
                
                  ds3['Enclosure'][ds3['Enclosure'] == 'EROPS w AC'] = 'EROPS AC'
                  ds3['Enclosure'][ds3['Enclosure'] == 'None or Unspecified'] = np.nan


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3.percent_missing()['Enclosure']

                
                
                  ds3.percent_missing()['Enclosure']

0.00081520722966654802


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3.percent_missing()['Enclosure']

                
                
                  ds3.percent_missing()['Enclosure']

0.00081520722966654802


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  set(ds3['Forks'])

                
                set(ds3['Forks'])

set([nan, 'Yes', 'None or Unspecified'])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  set(ds3['Forks'])

                
                set(ds3['Forks'])

set([nan, 'Yes', 'None or Unspecified'])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3['Forks'][ds3['Forks'] == 'None or Unspecified'] = np.nan

                
                
                  ds3['Forks'][ds3['Forks'] == 'None or Unspecified'] = np.nan


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3['Forks'][ds3['Forks'] == 'None or Unspecified'] = np.nan

                
                
                  ds3['Forks'][ds3['Forks'] == 'None or Unspecified'] = np.nan


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3.percent_missing()['Forks']

                
                ds3.percent_missing()['Forks']

0.96565409784979739


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3.percent_missing()['Forks']

                
                ds3.percent_missing()['Forks']

0.96565409784979739


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3.metadata

                
                ds3.metadata


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds3.metadata

                
                ds3.metadata


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds4 = copper.Dataset(train[train.columns[31:]])
ds4.percent_missing()

                
                
                  ds4 = copper.Dataset(train[train.columns[31:]]) ds4.percent_missing()

Tip_Control                0.937129
Pushblock                  0.937129
Engine_Horsepower          0.937129
Scarifier                  0.937102
Hydraulics_Flow            0.891899
Grouser_Tracks             0.891899
Coupler_System             0.891660
Steering_Controls          0.827064
Differential_Type          0.826959
Backhoe_Mounting           0.803872
Blade_Type                 0.800977
Travel_Controls            0.800975
Tire_Size                  0.763869
Grouser_Type               0.752813
Track_Type                 0.752813
Pattern_Changer            0.752651
Stick_Length               0.752651
Thumb                      0.752476
Undercarriage_Pad_Width    0.751020
Ripper                     0.740388
Coupler                    0.466620
Hydraulics                 0.200823


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds4 = copper.Dataset(train[train.columns[31:]])
ds4.percent_missing()

                
                
                  ds4 = copper.Dataset(train[train.columns[31:]]) ds4.percent_missing()

Tip_Control                0.937129
Pushblock                  0.937129
Engine_Horsepower          0.937129
Scarifier                  0.937102
Hydraulics_Flow            0.891899
Grouser_Tracks             0.891899
Coupler_System             0.891660
Steering_Controls          0.827064
Differential_Type          0.826959
Backhoe_Mounting           0.803872
Blade_Type                 0.800977
Travel_Controls            0.800975
Tire_Size                  0.763869
Grouser_Type               0.752813
Track_Type                 0.752813
Pattern_Changer            0.752651
Stick_Length               0.752651
Thumb                      0.752476
Undercarriage_Pad_Width    0.751020
Ripper                     0.740388
Coupler                    0.466620
Hydraulics                 0.200823


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  set(ds4['Coupler'])

                
                set(ds4['Coupler'])

set([nan, 'None or Unspecified', 'Manual', 'Hydraulic'])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  set(ds4['Coupler'])

                
                set(ds4['Coupler'])

set([nan, 'None or Unspecified', 'Manual', 'Hydraulic'])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  set(ds4['Hydraulics'])

                
                set(ds4['Hydraulics'])

set([nan,
     'None or Unspecified',
     'Base + 3 Function',
     'Auxiliary',
     'Base + 4 Function',
     'Base + 1 Function',
     'Standard',
     'Base + 6 Function',
     '4 Valve',
     '3 Valve',
     '2 Valve',
     'Base + 5 Function',
     'Base + 2 Function'])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  set(ds4['Hydraulics'])

                
                set(ds4['Hydraulics'])

set([nan,
     'None or Unspecified',
     'Base + 3 Function',
     'Auxiliary',
     'Base + 4 Function',
     'Base + 1 Function',
     'Standard',
     'Base + 6 Function',
     '4 Valve',
     '3 Valve',
     '2 Valve',
     'Base + 5 Function',
     'Base + 2 Function'])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds4['Coupler'][ds4['Coupler'] == 'None or Unspecified'] = np.nan
ds4['Hydraulics'][ds4['Hydraulics'] == 'None or Unspecified'] = np.nan

                
                
                  ds4['Coupler'][ds4['Coupler'] == 'None or Unspecified'] = np.nan
                  ds4['Hydraulics'][ds4['Hydraulics'] == 'None or Unspecified'] = np.nan


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds4['Coupler'][ds4['Coupler'] == 'None or Unspecified'] = np.nan
ds4['Hydraulics'][ds4['Hydraulics'] == 'None or Unspecified'] = np.nan

                
                
                  ds4['Coupler'][ds4['Coupler'] == 'None or Unspecified'] = np.nan
                  ds4['Hydraulics'][ds4['Hydraulics'] == 'None or Unspecified'] = np.nan


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds4.percent_missing()[['Coupler', 'Hydraulics']]

                
                
                  ds4.percent_missing()[['Coupler', 'Hydraulics']]

Coupler       0.926781
Hydraulics    0.200848


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds4.percent_missing()[['Coupler', 'Hydraulics']]

                
                
                  ds4.percent_missing()[['Coupler', 'Hydraulics']]

Coupler       0.926781
Hydraulics    0.200848


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds4.role['Coupler'] = ds4.REJECTED

                
                
                  ds4.role['Coupler'] = ds4.REJECTED


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds4.role['Coupler'] = ds4.REJECTED

                
                
                  ds4.role['Coupler'] = ds4.REJECTED


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds = copper.join(ds1, ds2, others=[ds3, ds4])

                
                
                  ds = copper.join(ds1, ds2, others=[ds3, ds4])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds = copper.join(ds1, ds2, others=[ds3, ds4])

                
                
                  ds = copper.join(ds1, ds2, others=[ds3, ds4])


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(ds), len(ds.columns)

                
                len(ds), len(ds.columns)

(401125, 53)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  len(ds), len(ds.columns)

                
                len(ds), len(ds.columns)

(401125, 53)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds = ds.filter(role=['Input', 'Target'], ret_ds=True)

                
                
                  ds = ds.filter(role=['Input', 'Target'], ret_ds=True)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds = ds.filter(role=['Input', 'Target'], ret_ds=True)

                
                
                  ds = ds.filter(role=['Input', 'Target'], ret_ds=True)


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds.percent_missing()

                
                ds.percent_missing()

ProductSize        0.525460
fiSecondaryDesc    0.342016
Hydraulics         0.200848
Enclosure          0.000815
ProductGroup       0.000000
state              0.000000
fiBaseModel        0.000000
saledate           0.000000
YearMade           0.000000
SalePrice          0.000000


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  ds.percent_missing()

                
                ds.percent_missing()

ProductSize        0.525460
fiSecondaryDesc    0.342016
Hydraulics         0.200848
Enclosure          0.000815
ProductGroup       0.000000
state              0.000000
fiBaseModel        0.000000
saledate           0.000000
YearMade           0.000000
SalePrice          0.000000


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  copper.save(ds, 'cleaned')

                
                copper.save(ds, 'cleaned')


                
                  
                    
                      Copied!
                      
                        
                        
                      
                    
                  
                
                
                  copper.save(ds, 'cleaned')

                
                copper.save(ds, 'cleaned')

	SalesID	SalePrice	MachineID	ModelID	datasource	auctioneerID	YearMade	MachineHoursCurrentMeter	UsageBand	saledate	fiModelDesc	fiBaseModel
0	1139246	66000	999089	3157	121	3	2004	68	Low	11/16/2006 0:00	521D	521
1	1139248	57000	117657	77	121	3	1996	4640	Low	3/26/2004 0:00	950FII	950
2	1139249	10000	434808	7009	121	3	2001	2838	High	2/26/2004 0:00	226	226
3	1139251	38500	1026470	332	121	3	2001	3486	High	5/19/2011 0:00	PC120-6E	PC120
4	1139253	11000	1057373	17311	121	3	2007	722	Medium	7/23/2009 0:00	S175	S175

	Role	Type	dtype
SalesID	ID	Number	int64
SalePrice	Target	Number	int64
MachineID	ID	Number	int64
ModelID	ID	Number	int64
datasource	ID	Number	int64
auctioneerID	ID	Number	float64
YearMade	Input	Number	int64
MachineHoursCurrentMeter	Reject	Number	float64
UsageBand	Reject	Category	object
saledate	Input	Number	int64
fiModelDesc	Input	Category	object
fiBaseModel	Input	Category	object

	fiSecondaryDesc	fiModelSeries	fiModelDescriptor	ProductSize	fiProductClassDesc	state	ProductGroup	ProductGroupDesc
0	D	NaN	NaN	NaN	Wheel Loader - 110.0 to 120.0 Horsepower	Alabama	WL	Wheel Loader
1	F	II	NaN	Medium	Wheel Loader - 150.0 to 175.0 Horsepower	North Carolina	WL	Wheel Loader
2	NaN	NaN	NaN	NaN	Skid Steer Loader - 1351.0 to 1601.0 Lb Operat...	New York	SSL	Skid Steer Loaders
3	NaN	-6E	NaN	Small	Hydraulic Excavator, Track - 12.0 to 14.0 Metr...	Texas	TEX	Track Excavators
4	NaN	NaN	NaN	NaN	Skid Steer Loader - 1601.0 to 1751.0 Lb Operat...	New York	SSL	Skid Steer Loaders
5	G	NaN	NaN	NaN	Backhoe Loader - 14.0 to 15.0 Ft Standard Digg...	Arizona	BL	Backhoe Loaders
6	E	NaN	LC	Large / Medium	Hydraulic Excavator, Track - 21.0 to 24.0 Metr...	Florida	TEX	Track Excavators

	Role	Type	dtype
fiSecondaryDesc	Input	Category	object
fiModelSeries	Reject	Category	object
fiModelDescriptor	Reject	Category	object
ProductSize	Input	Category	object
fiProductClassDesc	Reject	Category	object
state	Input	Category	object
ProductGroup	Input	Category	object
ProductGroupDesc	Reject	Category	object

	Drive_System	Enclosure	Forks	Pad_Type	Ride_Control	Stick	Transmission	Turbocharged	Blade_Extension	Blade_Width	Enclosure_Type
0	NaN	EROPS w AC	None or Unspecified	NaN	None or Unspecified	NaN	NaN	NaN	NaN	NaN	NaN
1	NaN	EROPS w AC	None or Unspecified	NaN	None or Unspecified	NaN	NaN	NaN	NaN	NaN	NaN
2	NaN	OROPS	None or Unspecified	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	NaN	EROPS w AC	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	NaN	EROPS	None or Unspecified	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

Kaggle bulldozers: Basic cleaning

Columns 1¶

Transforming a date¶

Columns 2¶

Columns 3¶

Columns 4¶

Join¶

Conclusion¶

	SalePrice	YearMade	saledate	fiBaseModel	fiSecondaryDesc	ProductSize	state	ProductGroup	Enclosure	Hydraulics
0	66000	2004	13468	521	D	NaN	Alabama	WL	EROPS AC	2 Valve
1	57000	1996	12503	950	F	Medium	North Carolina	WL	EROPS AC	2 Valve
2	10000	2001	12474	226	NaN	NaN	New York	SSL	OROPS	Auxiliary
3	38500	2001	15113	PC120	NaN	Small	Texas	TEX	EROPS AC	2 Valve
4	11000	2007	14448	S175	NaN	NaN	New York	SSL	EROPS	Auxiliary