본문 바로가기

📝 PM/daily

코드스테이츠 PMB 11 | I am... Db (딱)

 

 

imdb 로고

 

IMDb는 세계 최대 크기의 영화 데이터 서비스이다. SEO 솔루션 서비스인 Rank Ranger에 따르면 IMDb의 트래픽 수는 구글, 페이스북, 아마존을 이은 세계 4위 수준이다. 단순히 영화 관련 서비스 중에서 세계 최대가 아니라, 어디에 내놓아도 세계 최대 수준인 것이다. 

 

사용자는 IMDb에서 영화, TV 시리즈, 비디오 게임 등의 정보를 확인하고, 평가하고 리뷰를 남길 수 있다. 영화 리뷰 사이트 로튼 토마토, 메타크리틱이 전문가의 리뷰와 일반 유저의 리뷰를 구분하여 확인할 수 있는데 반해, IMDb의 경우 일반 유저가 대부분이기 때문에 보다 대중적인 평가를 확인할 수 있다. 

 

글로벌 데이터 커뮤니티인 Kaggle에서 찾은 'IMDb의 영화 부분 평점 TOP1000' 자료를 통해 데이터 시각화에 대한 학습을 진행하겠다. 해당 데이터셋에서는 IMDb 내 영화 파트에서 상위 평점 1000개의 데이터를 다음과 같은 정보들과 확인할 수 있다.

 

cloumns

Series_Title(타이틀 )/ Released_Year(출시 연도) / Certificate(시청 등급) / Runtime(상영 길이)
Genre(
장르) / IMDB_Rating(IMDb 평점) / Meta_score(메타크리틱 평점)
Director(
감독) / Star(출연배우) / No_of_Votes(총 리뷰 개수)

 

가설에 사용할 정보는  Released_Year, Genre, IMDB_Rating, No_of_Votes이다. 대중이 좋아하는 영화의 특성을 알아보기 위한 목적으로 진행되는 분석이라 1960년대 이전의 영화는 제외했다. 명작이라 불리는 작품들이 꽤나 있었지만 눈물을 머금고.. 

 

데이터 분석을 정식으로 배운 상태가 아니기 때문에 가설, 변수 설정, 결론 도출 과정에서 무수한 오류가 존재하겠지만 데이터를 들여다본다는 것 자체에 의의를 두고 진행했다. 

 

 

| 가설 1.  '드라마' 장르의 영화가 가장 많을 것이다.

데이터 분석을 시작하면서 아이러니하게 뇌피셜로 시작해보자면 평소 영화제에 출품되고, 수상하는 작품들이 대부분 '드라마' 장르가 많았던 거 같아서 위와 같은 가설을 세웠다. 이를 위하여 열에는 장르, 행에는 평점의 합계를 설정하여 각 장르별 총평점의 합을 시각화했다. 

 

IMDb에서 장르를 세분화해서 등록해뒀기 때문에 중복되는 장르가 꽤 있었지만 드라마 장르가 1위를 차지한 것을 확인할 수 있었다. 

 

| 가설 2.  2000년대 이전 작품이 많을 것이다

보통 명작이라 불리는 작품들은 일찍이 영화사에 등장하여 많은 흔적을 남긴다. 

 

보기 좋게 틀렸다. 2000년대 이후 작품의 평점의 합이 더욱 높은 것을 확인할 수 있다.

3위까지는 모두 2000년대 이전 작품이었지만, Top 1000을 따졌을 때는  2000년대 이후 작품의 비중이 더욱 높은 것을 확인했다. 2000년대 이후에도 충분히 좋은 작품들이 나오거나 대중들이 2000년대 이후 작품들을 더욱 선호한다는 것을 예상할 수 있다. 

 

| 가설 3.  평점이 높은 작품은 평가 수가 많을 것이다.

좋은 작품일수록 더욱 많은 사람들이 볼 테고, 이는 많은 평가로 이어질 것이다. 

평가 수와 평점은 당연히 함수관계에 있지 않았지만 평점이 높은 작품들은 대부분 평가 수가 많은 것을 확인했다. 

 

 

 

 

 


참고자료

IMDb | https://www.imdb.com/

Rank ranger | https://www.rankranger.com/

kaggle | IMDB Movies Dataset | https://www.kaggle.com/datasets/harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows

Tableau | https://www.tableau.com/ko-kr