Copied!







import sys
sys.version_info

import sys
sys.version_info

sys.version_info(major=3, minor=4, micro=3, releaselevel='final', serial=0)





Copied!







import sys
sys.version_info

import sys
sys.version_info

sys.version_info(major=3, minor=4, micro=3, releaselevel='final', serial=0)





Copied!







import requests
requests.__version__

import requests
requests.__version__

'2.6.2'





Copied!







import requests
requests.__version__

import requests
requests.__version__

'2.6.2'





Copied!







import bs4
from bs4 import BeautifulSoup
bs4.__version__

import bs4
from bs4 import BeautifulSoup
bs4.__version__

'4.3.2'





Copied!







import bs4
from bs4 import BeautifulSoup
bs4.__version__

import bs4
from bs4 import BeautifulSoup
bs4.__version__

'4.3.2'





Copied!







import numpy as np
np.__version__

import numpy as np
np.__version__

'1.9.2'





Copied!







import numpy as np
np.__version__

import numpy as np
np.__version__

'1.9.2'





Copied!







import pandas as pd
pd.__version__

import pandas as pd
pd.__version__

'0.16.0'





Copied!







import pandas as pd
pd.__version__

import pandas as pd
pd.__version__

'0.16.0'





Copied!







from sklearn.cluster import KMeans
import sklearn
sklearn.__version__

from sklearn.cluster import KMeans
import sklearn
sklearn.__version__

'0.16.1'





Copied!







from sklearn.cluster import KMeans
import sklearn
sklearn.__version__

from sklearn.cluster import KMeans
import sklearn
sklearn.__version__

'0.16.1'





Copied!







import bokeh.plotting as plt
from bokeh.models import HoverTool
plt.output_notebook()
import bokeh
bokeh.__version__

import bokeh.plotting as plt
from bokeh.models import HoverTool
plt.output_notebook()
import bokeh
bokeh.__version__

'0.8.2'





Copied!







import bokeh.plotting as plt
from bokeh.models import HoverTool
plt.output_notebook()
import bokeh
bokeh.__version__

import bokeh.plotting as plt
from bokeh.models import HoverTool
plt.output_notebook()
import bokeh
bokeh.__version__

'0.8.2'





Copied!







def get_soup(url):
    r = requests.get(url)
    return BeautifulSoup(r.text, 'html5lib')

def get_soup(url):
    r = requests.get(url)
    return BeautifulSoup(r.text, 'html5lib')





Copied!







def get_soup(url):
    r = requests.get(url)
    return BeautifulSoup(r.text, 'html5lib')

def get_soup(url):
    r = requests.get(url)
    return BeautifulSoup(r.text, 'html5lib')





Copied!







rotten_sandler_url = 'http://www.rottentomatoes.com/celebrity/adam_sandler/'

rotten_sandler_url = 'http://www.rottentomatoes.com/celebrity/adam_sandler/'





Copied!







rotten_sandler_url = 'http://www.rottentomatoes.com/celebrity/adam_sandler/'

rotten_sandler_url = 'http://www.rottentomatoes.com/celebrity/adam_sandler/'





Copied!







soup = get_soup(rotten_sandler_url)

soup = get_soup(rotten_sandler_url)





Copied!







soup = get_soup(rotten_sandler_url)

soup = get_soup(rotten_sandler_url)





Copied!







films_table = str(soup.select('#filmography_box table:first-child')[0])

films_table = str(soup.select('#filmography_box table:first-child')[0])





Copied!







films_table = str(soup.select('#filmography_box table:first-child')[0])

films_table = str(soup.select('#filmography_box table:first-child')[0])





Copied!







rotten = pd.read_html(films_table)[0]

rotten = pd.read_html(films_table)[0]





Copied!







rotten = pd.read_html(films_table)[0]

rotten = pd.read_html(films_table)[0]





Copied!







rotten.head()

rotten.head()





Copied!







rotten.head()

rotten.head()





Copied!







rotten.RATING = rotten.RATING.str.replace('%', '').astype(float)

rotten.RATING = rotten.RATING.str.replace('%', '').astype(float)





Copied!







rotten.RATING = rotten.RATING.str.replace('%', '').astype(float)

rotten.RATING = rotten.RATING.str.replace('%', '').astype(float)





Copied!







rotten['BOX OFFICE'] = rotten['BOX OFFICE'].str.replace('$', '').str.replace('M', '').str.replace('-', '0')
rotten['BOX OFFICE'] = rotten['BOX OFFICE'].astype(float)

rotten['BOX OFFICE'] = rotten['BOX OFFICE'].str.replace('$', '').str.replace('M', '').str.replace('-', '0')
rotten['BOX OFFICE'] = rotten['BOX OFFICE'].astype(float)





Copied!







rotten['BOX OFFICE'] = rotten['BOX OFFICE'].str.replace('$', '').str.replace('M', '').str.replace('-', '0')
rotten['BOX OFFICE'] = rotten['BOX OFFICE'].astype(float)

rotten['BOX OFFICE'] = rotten['BOX OFFICE'].str.replace('$', '').str.replace('M', '').str.replace('-', '0')
rotten['BOX OFFICE'] = rotten['BOX OFFICE'].astype(float)





Copied!







rotten.loc[rotten['BOX OFFICE'] == 0, ['BOX OFFICE']] = np.nan

rotten.loc[rotten['BOX OFFICE'] == 0, ['BOX OFFICE']] = np.nan





Copied!







rotten.loc[rotten['BOX OFFICE'] == 0, ['BOX OFFICE']] = np.nan

rotten.loc[rotten['BOX OFFICE'] == 0, ['BOX OFFICE']] = np.nan





Copied!







rotten.head()

rotten.head()





Copied!







rotten.head()

rotten.head()





Copied!







rotten = rotten.set_index('TITLE')

rotten = rotten.set_index('TITLE')





Copied!







rotten = rotten.set_index('TITLE')

rotten = rotten.set_index('TITLE')





Copied!







rotten.to_csv('rotten.csv')

rotten.to_csv('rotten.csv')





Copied!







rotten.to_csv('rotten.csv')

rotten.to_csv('rotten.csv')





Copied!







from IPython.display import Image

from IPython.display import Image





Copied!







from IPython.display import Image

from IPython.display import Image





Copied!







Image(url='https://espnfivethirtyeight.files.wordpress.com/2015/04/hickey-datalab-sandler.png', width=550)

Image(url='https://espnfivethirtyeight.files.wordpress.com/2015/04/hickey-datalab-sandler.png', width=550)





Copied!







Image(url='https://espnfivethirtyeight.files.wordpress.com/2015/04/hickey-datalab-sandler.png', width=550)

Image(url='https://espnfivethirtyeight.files.wordpress.com/2015/04/hickey-datalab-sandler.png', width=550)





Copied!







rotten = pd.read_csv('rotten.csv', index_col=0)

rotten = pd.read_csv('rotten.csv', index_col=0)





Copied!







rotten = pd.read_csv('rotten.csv', index_col=0)

rotten = pd.read_csv('rotten.csv', index_col=0)





Copied!







rotten = rotten.dropna()

rotten = rotten.dropna()





Copied!







rotten = rotten.dropna()

rotten = rotten.dropna()





Copied!







len(rotten)

len(rotten)

37





Copied!







len(rotten)

len(rotten)

37





Copied!







rotten.index

rotten.index

Index(['Paul Blart: Mall Cop 2', 'Blended', 'Top Five', 'Grown Ups 2', 'Hotel Transylvania', 'That's My Boy', 'Here Comes the Boom', 'Bucky Larson: Born to Be a Star', 'Jack and Jill', 'Zookeeper', 'Just Go with It', 'Grown Ups', 'Funny People', 'Paul Blart: Mall Cop', 'Bedtime Stories', 'You Don't Mess With the Zohan', 'The House Bunny', 'Strange Wilderness', 'I Now Pronounce You Chuck & Larry', 'Reign Over Me', 'The Benchwarmers', 'Grandma's Boy', 'Click', 'The Longest Yard', 'Deuce Bigalow: European Gigolo', 'Spanglish', '50 First Dates', 'Anger Management', 'Dickie Roberts: Former Child Star', 'Punch-Drunk Love', 'Adam Sandler's Eight Crazy Nights', 'The Hot Chick', 'Mr. Deeds', 'The Master of Disguise', 'The Animal', 'Joe Dirt', 'Little Nicky'], dtype='object')





Copied!







rotten.index

rotten.index

Index(['Paul Blart: Mall Cop 2', 'Blended', 'Top Five', 'Grown Ups 2', 'Hotel Transylvania', 'That's My Boy', 'Here Comes the Boom', 'Bucky Larson: Born to Be a Star', 'Jack and Jill', 'Zookeeper', 'Just Go with It', 'Grown Ups', 'Funny People', 'Paul Blart: Mall Cop', 'Bedtime Stories', 'You Don't Mess With the Zohan', 'The House Bunny', 'Strange Wilderness', 'I Now Pronounce You Chuck & Larry', 'Reign Over Me', 'The Benchwarmers', 'Grandma's Boy', 'Click', 'The Longest Yard', 'Deuce Bigalow: European Gigolo', 'Spanglish', '50 First Dates', 'Anger Management', 'Dickie Roberts: Former Child Star', 'Punch-Drunk Love', 'Adam Sandler's Eight Crazy Nights', 'The Hot Chick', 'Mr. Deeds', 'The Master of Disguise', 'The Animal', 'Joe Dirt', 'Little Nicky'], dtype='object')





Copied!







source = plt.ColumnDataSource(
    data=dict(
        rating=rotten.RATING,
        gross=rotten['BOX OFFICE'],
        movie=rotten.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 100],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(rotten.RATING, rotten['BOX OFFICE'], size=10, source=source)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)

source = plt.ColumnDataSource(
    data=dict(
        rating=rotten.RATING,
        gross=rotten['BOX OFFICE'],
        movie=rotten.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 100],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(rotten.RATING, rotten['BOX OFFICE'], size=10, source=source)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)





Copied!







source = plt.ColumnDataSource(
    data=dict(
        rating=rotten.RATING,
        gross=rotten['BOX OFFICE'],
        movie=rotten.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 100],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(rotten.RATING, rotten['BOX OFFICE'], size=10, source=source)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)

source = plt.ColumnDataSource(
    data=dict(
        rating=rotten.RATING,
        gross=rotten['BOX OFFICE'],
        movie=rotten.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 100],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(rotten.RATING, rotten['BOX OFFICE'], size=10, source=source)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)





Copied!







X = rotten[['RATING', 'BOX OFFICE']].values

X = rotten[['RATING', 'BOX OFFICE']].values





Copied!







X = rotten[['RATING', 'BOX OFFICE']].values

X = rotten[['RATING', 'BOX OFFICE']].values





Copied!







clf = KMeans(n_clusters=3)

clf = KMeans(n_clusters=3)





Copied!







clf = KMeans(n_clusters=3)

clf = KMeans(n_clusters=3)





Copied!







clf.fit(X)

clf.fit(X)

KMeans(copy_x=True, init='k-means++', max_iter=300, n_clusters=3, n_init=10,
    n_jobs=1, precompute_distances='auto', random_state=None, tol=0.0001,
    verbose=0)





Copied!







clf.fit(X)

clf.fit(X)

KMeans(copy_x=True, init='k-means++', max_iter=300, n_clusters=3, n_init=10,
    n_jobs=1, precompute_distances='auto', random_state=None, tol=0.0001,
    verbose=0)





Copied!







clusters = clf.predict(X)
clusters

clusters = clf.predict(X)
clusters

array([0, 0, 2, 1, 1, 0, 0, 0, 0, 0, 1, 1, 2, 1, 1, 1, 0, 0, 1, 2, 0, 0, 1,
       1, 0, 2, 1, 1, 0, 2, 0, 0, 1, 0, 0, 0, 0], dtype=int32)





Copied!







clusters = clf.predict(X)
clusters

clusters = clf.predict(X)
clusters

array([0, 0, 2, 1, 1, 0, 0, 0, 0, 0, 1, 1, 2, 1, 1, 1, 0, 0, 1, 2, 0, 0, 1,
       1, 0, 2, 1, 1, 0, 2, 0, 0, 1, 0, 0, 0, 0], dtype=int32)





Copied!







colors = clusters.astype(str)
colors[clusters == 0] = 'green'
colors[clusters == 1] = 'red'
colors[clusters == 2] = 'gold'

colors = clusters.astype(str)
colors[clusters == 0] = 'green'
colors[clusters == 1] = 'red'
colors[clusters == 2] = 'gold'





Copied!







colors = clusters.astype(str)
colors[clusters == 0] = 'green'
colors[clusters == 1] = 'red'
colors[clusters == 2] = 'gold'

colors = clusters.astype(str)
colors[clusters == 0] = 'green'
colors[clusters == 1] = 'red'
colors[clusters == 2] = 'gold'





Copied!







source = plt.ColumnDataSource(
    data=dict(
        rating=rotten.RATING,
        gross=rotten['BOX OFFICE'],
        movie=rotten.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 100],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(rotten.RATING, rotten['BOX OFFICE'], size=10, source=source, color=colors)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)

source = plt.ColumnDataSource(
    data=dict(
        rating=rotten.RATING,
        gross=rotten['BOX OFFICE'],
        movie=rotten.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 100],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(rotten.RATING, rotten['BOX OFFICE'], size=10, source=source, color=colors)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)





Copied!







source = plt.ColumnDataSource(
    data=dict(
        rating=rotten.RATING,
        gross=rotten['BOX OFFICE'],
        movie=rotten.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 100],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(rotten.RATING, rotten['BOX OFFICE'], size=10, source=source, color=colors)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)

source = plt.ColumnDataSource(
    data=dict(
        rating=rotten.RATING,
        gross=rotten['BOX OFFICE'],
        movie=rotten.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 100],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(rotten.RATING, rotten['BOX OFFICE'], size=10, source=source, color=colors)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)





Copied!







imdb_sandler_url = 'http://www.imdb.com/name/nm0001191/'

imdb_sandler_url = 'http://www.imdb.com/name/nm0001191/'





Copied!







imdb_sandler_url = 'http://www.imdb.com/name/nm0001191/'

imdb_sandler_url = 'http://www.imdb.com/name/nm0001191/'





Copied!







soup = get_soup(imdb_sandler_url)

soup = get_soup(imdb_sandler_url)





Copied!







soup = get_soup(imdb_sandler_url)

soup = get_soup(imdb_sandler_url)





Copied!







a_tags = soup.select('div#filmo-head-actor + div b a')

a_tags = soup.select('div#filmo-head-actor + div b a')





Copied!







a_tags = soup.select('div#filmo-head-actor + div b a')

a_tags = soup.select('div#filmo-head-actor + div b a')





Copied!







a_tags[:5]

a_tags[:5]

[<a href="/title/tt2479478/?ref_=nm_flmg_act_1">The Ridiculous 6</a>,
 <a href="/title/tt2510894/?ref_=nm_flmg_act_2">Hotel Transylvania 2</a>,
 <a href="/title/tt2120120/?ref_=nm_flmg_act_3">Pixels</a>,
 <a href="/title/tt3203616/?ref_=nm_flmg_act_4">The Cobbler</a>,
 <a href="/title/tt3179568/?ref_=nm_flmg_act_5">Men, Women &amp; Children</a>]





Copied!







a_tags[:5]

a_tags[:5]

[<a href="/title/tt2479478/?ref_=nm_flmg_act_1">The Ridiculous 6</a>,
 <a href="/title/tt2510894/?ref_=nm_flmg_act_2">Hotel Transylvania 2</a>,
 <a href="/title/tt2120120/?ref_=nm_flmg_act_3">Pixels</a>,
 <a href="/title/tt3203616/?ref_=nm_flmg_act_4">The Cobbler</a>,
 <a href="/title/tt3179568/?ref_=nm_flmg_act_5">Men, Women &amp; Children</a>]





Copied!







movies = {}
for a_tag in a_tags:
    movie_name = a_tag.text
    movie_url = 'http://www.imdb.com' + a_tag['href']
    soup = get_soup(movie_url)
    rating = soup.select('.star-box-giga-star')
    if len(rating) == 1:
        movies[movie_name] = float(rating[0].text)

movies = {}
for a_tag in a_tags:
    movie_name = a_tag.text
    movie_url = 'http://www.imdb.com' + a_tag['href']
    soup = get_soup(movie_url)
    rating = soup.select('.star-box-giga-star')
    if len(rating) == 1:
        movies[movie_name] = float(rating[0].text)





Copied!







movies = {}
for a_tag in a_tags:
    movie_name = a_tag.text
    movie_url = 'http://www.imdb.com' + a_tag['href']
    soup = get_soup(movie_url)
    rating = soup.select('.star-box-giga-star')
    if len(rating) == 1:
        movies[movie_name] = float(rating[0].text)

movies = {}
for a_tag in a_tags:
    movie_name = a_tag.text
    movie_url = 'http://www.imdb.com' + a_tag['href']
    soup = get_soup(movie_url)
    rating = soup.select('.star-box-giga-star')
    if len(rating) == 1:
        movies[movie_name] = float(rating[0].text)





Copied!







ratings = pd.DataFrame.from_dict(movies, orient='index')
ratings.columns = ['rating']

ratings = pd.DataFrame.from_dict(movies, orient='index')
ratings.columns = ['rating']





Copied!







ratings = pd.DataFrame.from_dict(movies, orient='index')
ratings.columns = ['rating']

ratings = pd.DataFrame.from_dict(movies, orient='index')
ratings.columns = ['rating']





Copied!







ratings.head()

ratings.head()





Copied!







ratings.head()

ratings.head()





Copied!







len(ratings)

len(ratings)

53





Copied!







len(ratings)

len(ratings)

53





Copied!







ratings.index.name = 'Title'

ratings.index.name = 'Title'





Copied!







ratings.index.name = 'Title'

ratings.index.name = 'Title'





Copied!







ratings.to_csv('imdb-ratings.csv')

ratings.to_csv('imdb-ratings.csv')





Copied!







ratings.to_csv('imdb-ratings.csv')

ratings.to_csv('imdb-ratings.csv')





Copied!







box_sandler_url = 'http://www.boxofficemojo.com/people/chart/?view=Actor&id=adamsandler.htm'

box_sandler_url = 'http://www.boxofficemojo.com/people/chart/?view=Actor&id=adamsandler.htm'





Copied!







box_sandler_url = 'http://www.boxofficemojo.com/people/chart/?view=Actor&id=adamsandler.htm'

box_sandler_url = 'http://www.boxofficemojo.com/people/chart/?view=Actor&id=adamsandler.htm'





Copied!







soup = get_soup(box_sandler_url)

soup = get_soup(box_sandler_url)





Copied!







soup = get_soup(box_sandler_url)

soup = get_soup(box_sandler_url)





Copied!







box_gross_table = str(soup.select('br + table')[0])

box_gross_table = str(soup.select('br + table')[0])





Copied!







box_gross_table = str(soup.select('br + table')[0])

box_gross_table = str(soup.select('br + table')[0])





Copied!







gross = pd.read_html(box_gross_table, header=0)[0]

gross = pd.read_html(box_gross_table, header=0)[0]





Copied!







gross = pd.read_html(box_gross_table, header=0)[0]

gross = pd.read_html(box_gross_table, header=0)[0]





Copied!







gross.head()

gross.head()





Copied!







gross.head()

gross.head()





Copied!







gross.drop('Unnamed: 6', axis=1, inplace=True)
gross.drop('Unnamed: 7', axis=1, inplace=True)
gross.drop('Opening / Theaters', axis=1, inplace=True)
gross.drop('Rank', axis=1, inplace=True)
gross.drop('Studio', axis=1, inplace=True)

gross.drop('Unnamed: 6', axis=1, inplace=True)
gross.drop('Unnamed: 7', axis=1, inplace=True)
gross.drop('Opening / Theaters', axis=1, inplace=True)
gross.drop('Rank', axis=1, inplace=True)
gross.drop('Studio', axis=1, inplace=True)





Copied!







gross.drop('Unnamed: 6', axis=1, inplace=True)
gross.drop('Unnamed: 7', axis=1, inplace=True)
gross.drop('Opening / Theaters', axis=1, inplace=True)
gross.drop('Rank', axis=1, inplace=True)
gross.drop('Studio', axis=1, inplace=True)

gross.drop('Unnamed: 6', axis=1, inplace=True)
gross.drop('Unnamed: 7', axis=1, inplace=True)
gross.drop('Opening / Theaters', axis=1, inplace=True)
gross.drop('Rank', axis=1, inplace=True)
gross.drop('Studio', axis=1, inplace=True)





Copied!







gross.columns = ['Date', 'Title', 'Gross']

gross.columns = ['Date', 'Title', 'Gross']





Copied!







gross.columns = ['Date', 'Title', 'Gross']

gross.columns = ['Date', 'Title', 'Gross']





Copied!







gross.set_index('Title', inplace=True)

gross.set_index('Title', inplace=True)





Copied!







gross.set_index('Title', inplace=True)

gross.set_index('Title', inplace=True)





Copied!







gross.Gross = gross.Gross.str.replace(r'[$,]', '').astype(int)

gross.Gross = gross.Gross.str.replace(r'[$,]', '').astype(int)





Copied!







gross.Gross = gross.Gross.str.replace(r'[$,]', '').astype(int)

gross.Gross = gross.Gross.str.replace(r'[$,]', '').astype(int)





Copied!







gross.head()

gross.head()





Copied!







gross.head()

gross.head()





Copied!







gross.to_csv('imdb-gross.csv')

gross.to_csv('imdb-gross.csv')





Copied!







gross.to_csv('imdb-gross.csv')

gross.to_csv('imdb-gross.csv')





Copied!







ratings = pd.read_csv('imdb-ratings.csv', index_col=0)

ratings = pd.read_csv('imdb-ratings.csv', index_col=0)





Copied!







ratings = pd.read_csv('imdb-ratings.csv', index_col=0)

ratings = pd.read_csv('imdb-ratings.csv', index_col=0)





Copied!







gross = pd.read_csv('imdb-gross.csv', index_col=0)

gross = pd.read_csv('imdb-gross.csv', index_col=0)





Copied!







gross = pd.read_csv('imdb-gross.csv', index_col=0)

gross = pd.read_csv('imdb-gross.csv', index_col=0)





Copied!







gross.Gross = gross.Gross / 1e6

gross.Gross = gross.Gross / 1e6





Copied!







gross.Gross = gross.Gross / 1e6

gross.Gross = gross.Gross / 1e6





Copied!







len(ratings)

len(ratings)

53





Copied!







len(ratings)

len(ratings)

53





Copied!







len(gross)

len(gross)

37





Copied!







len(gross)

len(gross)

37





Copied!







gross.ix['Just Go with It'] = gross.ix['Just Go With It']
gross = gross.drop('Just Go With It')

gross.ix['Just Go with It'] = gross.ix['Just Go With It']
gross = gross.drop('Just Go With It')





Copied!







gross.ix['Just Go with It'] = gross.ix['Just Go With It']
gross = gross.drop('Just Go With It')

gross.ix['Just Go with It'] = gross.ix['Just Go With It']
gross = gross.drop('Just Go With It')





Copied!







gross.ix['I Now Pronounce You Chuck & Larry'] = gross.ix['I Now Pronounce You Chuck and Larry']
gross = gross.drop('I Now Pronounce You Chuck and Larry')

gross.ix['I Now Pronounce You Chuck & Larry'] = gross.ix['I Now Pronounce You Chuck and Larry']
gross = gross.drop('I Now Pronounce You Chuck and Larry')





Copied!







gross.ix['I Now Pronounce You Chuck & Larry'] = gross.ix['I Now Pronounce You Chuck and Larry']
gross = gross.drop('I Now Pronounce You Chuck and Larry')

gross.ix['I Now Pronounce You Chuck & Larry'] = gross.ix['I Now Pronounce You Chuck and Larry']
gross = gross.drop('I Now Pronounce You Chuck and Larry')





Copied!







imdb = gross.join(ratings)

imdb = gross.join(ratings)





Copied!







imdb = gross.join(ratings)

imdb = gross.join(ratings)





Copied!







len(imdb), len(imdb.dropna())

len(imdb), len(imdb.dropna())

(37, 33)





Copied!







len(imdb), len(imdb.dropna())

len(imdb), len(imdb.dropna())

(37, 33)





Copied!







imdb = imdb.dropna()

imdb = imdb.dropna()





Copied!







imdb = imdb.dropna()

imdb = imdb.dropna()





Copied!







source = plt.ColumnDataSource(
    data=dict(
        rating=imdb.rating,
        gross=imdb.Gross,
        movie=imdb.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 10], 
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(imdb.rating, imdb.Gross, size=10, source=source)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)

source = plt.ColumnDataSource(
    data=dict(
        rating=imdb.rating,
        gross=imdb.Gross,
        movie=imdb.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 10], 
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(imdb.rating, imdb.Gross, size=10, source=source)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)





Copied!







source = plt.ColumnDataSource(
    data=dict(
        rating=imdb.rating,
        gross=imdb.Gross,
        movie=imdb.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 10], 
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(imdb.rating, imdb.Gross, size=10, source=source)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)

source = plt.ColumnDataSource(
    data=dict(
        rating=imdb.rating,
        gross=imdb.Gross,
        movie=imdb.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 10], 
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(imdb.rating, imdb.Gross, size=10, source=source)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)





Copied!







X = imdb[['rating', 'Gross']].values

X = imdb[['rating', 'Gross']].values





Copied!







X = imdb[['rating', 'Gross']].values

X = imdb[['rating', 'Gross']].values





Copied!







clf = KMeans(n_clusters=2)

clf = KMeans(n_clusters=2)





Copied!







clf = KMeans(n_clusters=2)

clf = KMeans(n_clusters=2)





Copied!







clf.fit(X)

clf.fit(X)

KMeans(copy_x=True, init='k-means++', max_iter=300, n_clusters=2, n_init=10,
    n_jobs=1, precompute_distances='auto', random_state=None, tol=0.0001,
    verbose=0)





Copied!







clf.fit(X)

clf.fit(X)

KMeans(copy_x=True, init='k-means++', max_iter=300, n_clusters=2, n_init=10,
    n_jobs=1, precompute_distances='auto', random_state=None, tol=0.0001,
    verbose=0)





Copied!







clusters = clf.predict(X)
clusters

clusters = clf.predict(X)
clusters

array([1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 0, 0], dtype=int32)





Copied!







clusters = clf.predict(X)
clusters

clusters = clf.predict(X)
clusters

array([1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 0, 0], dtype=int32)





Copied!







colors = clusters.astype(str)
colors[clusters == 0] = 'green'
colors[clusters == 1] = 'red'

colors = clusters.astype(str)
colors[clusters == 0] = 'green'
colors[clusters == 1] = 'red'





Copied!







colors = clusters.astype(str)
colors[clusters == 0] = 'green'
colors[clusters == 1] = 'red'

colors = clusters.astype(str)
colors[clusters == 0] = 'green'
colors[clusters == 1] = 'red'





Copied!







source = plt.ColumnDataSource(
    data=dict(
        rating=imdb.rating,
        gross=imdb.Gross,
        movie=imdb.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 10],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(imdb.rating, imdb.Gross, size=10, source=source, color=colors)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)

source = plt.ColumnDataSource(
    data=dict(
        rating=imdb.rating,
        gross=imdb.Gross,
        movie=imdb.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 10],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(imdb.rating, imdb.Gross, size=10, source=source, color=colors)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)





Copied!







source = plt.ColumnDataSource(
    data=dict(
        rating=imdb.rating,
        gross=imdb.Gross,
        movie=imdb.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 10],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(imdb.rating, imdb.Gross, size=10, source=source, color=colors)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)

source = plt.ColumnDataSource(
    data=dict(
        rating=imdb.rating,
        gross=imdb.Gross,
        movie=imdb.index,
    )
)
p = plt.figure(tools='reset,save,hover', x_range=[0, 10],
               title='', width=530, height=530,
               x_axis_label="Rotten Tomatoes rating",
               y_axis_label="Box Office Gross")
p.scatter(imdb.rating, imdb.Gross, size=10, source=source, color=colors)
hover = p.select(dict(type=HoverTool))
hover.tooltips = [
    ("Movie", "@movie"),
    ("Rating", "@rating"),
    ("Box Office Gross", "@gross"),
]
plt.show(p)

	RATING	TITLE	CREDIT	BOX OFFICE	YEAR
0	NaN	Candy Land	Actor	--	2015
1	6%	Paul Blart: Mall Cop 2	Producer	$43.2M	2015
2	NaN	Hello Ghost	Actor Producer	--	2015
3	9%	The Cobbler	Max Simkin	--	2015
4	NaN	Pixels	Producer Screenwriter Sam Brenner	--	2015

	RATING	TITLE	CREDIT	BOX OFFICE	YEAR
0	NaN	Candy Land	Actor	NaN	2015
1	6	Paul Blart: Mall Cop 2	Producer	43.2	2015
2	NaN	Hello Ghost	Actor Producer	NaN	2015
3	9	The Cobbler	Max Simkin	NaN	2015
4	NaN	Pixels	Producer Screenwriter Sam Brenner	NaN	2015

	rating
Brooklyn Nine-Nine	8.3
A Day with the Meatball	6.6
You Don't Mess with the Zohan	5.5
Click	6.4
Deuce Bigalow: Male Gigolo	5.7

	Date	Title (click to view)	Studio	Lifetime Gross / Theaters	Opening / Theaters	Rank	Unnamed: 6	Unnamed: 7
0	10/1/14	Men, Women & Children	Par.	$705,908	608	$48,024	17	30
1	5/23/14	Blended	WB	$46,294,610	3555	$14,284,031	3555	18
2	7/12/13	Grown Ups 2	Sony	$133,668,525	3491	$41,508,572	3491	8
3	9/28/12	Hotel Transylvania(Voice)	Sony	$148,313,048	3375	$42,522,194	3349	5
4	6/15/12	That's My Boy	Sony	$36,931,089	3030	$13,453,714	3030	22

	Date	Gross
Title
Men, Women & Children	10/1/14	705908
Blended	5/23/14	46294610
Grown Ups 2	7/12/13	133668525
Hotel Transylvania(Voice)	9/28/12	148313048
That's My Boy	6/15/12	36931089

ReproduceIt: FiveThirtyEight - The Three Types Of Adam Sandler Movies

Getting Data¶

Plot¶

Clusters¶

IMDB¶

IMDB: Ratings¶

IMDB: Box Office Mojo¶

IMDB: Analysis¶

Conclusions¶