1. 서 론
미디어 산업에서 작품의 흥행은 수익성과 차기 작품의 제작 여부를 결정하는 중요한 역할을 한다. 미디어 산업 관련 기존 연구는 주로 TV나 극장 중심으로 흥행 요인에 대한 연구가 이루어졌다[3, 8, 9]. 하지만 현재 미디어 산업 의 중심은 TV나 극장에서 OTT 서비스로 이동하고 있는 추세이다[7, 11].
OTT(Over The Top) 서비스란 기존의 통신 및 방송 사업 자와 더불어 제3 사업자들이 인터넷을 통해 드라마나 영화 등의 다양한 미디어 콘텐츠를 제공하는 서비스를 의미한다. 2020년 한 해 동안 코로나19로 인해 영화 산업을 포함한 대부분의 산업이 위축되었던 반면 OTT 시장 점유율 1위인 넷플릭스의 신규 가입자 수는 약 3600만 명으로 역대 최대 의 규모를 보였다. 또한, 월트디즈니, 아마존, 워너 미디어와 디스커버리 등 많은 세계적인 기업들이 OTT 시장으로 뛰어 드는 것을 밝혔다. 이에 따라 OTT에 대한 대중적인 관심이 지속적으로 높아지고 경쟁이 치열해질 것을 예상할 수 있 다. 하지만 OTT 고유의 특징을 반영한 연구는 극장 상영작 이나 TV, 드라마에 비해 상대적으로 적다[2].
Bhattacherjee(2001)의 연구에서는 OTT 서비스의 지속 적인 이용도에 영향을 미치는 중요한 요소로서 소비자의 이용 만족도를 꼽은 바 있다[1]. 기존에 장용국 등(2020)은 소비자의 이용 만족도를 설문으로 수집하여 평가하였으나 본 연구에서는 소비자의 이용 만족도를 다년간 축적된 평 점 데이터를 이용하여 보다 객관적으로 분석한다[4].
OTT에 제공되는 작품의 품질 향상은 OTT 시장에서의 경쟁력을 갖추기 위한 필수적인 요소이다[5]. 본 논문에서 는 시청자의 의견을 대변하는 평점과 품질이 상관성이 있 다고 보고 회귀분석을 이용하여 OTT 서비스 콘텐츠의 흥 행의 요인을 분석하고자 한다. 현재 OTT 시장 점유율 1위 를 차지하고 있는 넷플릭스는 자사 제작 콘텐츠뿐만 아니 라 다른 제작사에서 제작한 작품도 방영하지만 본 논문에 서는 자체 제작 콘텐츠인 넷플릭스 오리지널 작품들을 대 상으로 연구를 진행한다.
극장에서 상영하는 영화와 OTT 서비스 콘텐츠 사이에 서는 ‘다시 보기’ 라는 개념에 있어서 큰 차이가 있다. 일 반적으로 극장 상영작은 시청 관객 수가 영화의 흥행을 대변할 수 있다. 그에 비해 OTT 콘텐츠는 한번 시청했던 콘텐츠를 다시 보는 일이 매우 잦고 이에 따라 각각의 콘 텐츠에 대한 만족도가 중요한 요소로서 작용한다. 따라서 본 논문에서는 평점을 이러한 만족도의 기준으로 삼고 분 석하기 위해 세계 최대의 평점 사이트 IMDb와 넷플릭스 사이트로부터 수집한다. 수집된 데이터는 회귀분석을 이 용하여 성공과 실패 요인을 도출하고 향후 제작 품질 향상 에 기여할 수 있다. 본 연구는 시청자들의 평가로 이루어 진 IMDb 평점의 중앙값을 기준으로 하여 성공작과 실패 작을 나누고 나눈 데이터에 대해 각각 회귀분석을 실시한 다. 성공작에서의 유의한 변수와 실패작에서의 유의한 변 수를 도출한다.
2. 이론적 배경
특정 나라에서만 방영된 것이 아닌 전 세계 공통으로 방영된 넷플릭스 오리지널 작품들을 대상으로 하며, 그중 에서도 애니메이션이나 다큐멘터리가 아닌 영화와 드라마 를 대상으로 선정하여 분석을 진행한다. 영화와 드라마의 평점에 영향을 미치는 요인들을 아래와 같이 선정하였다. 일반적으로 평점에 영향을 미치는 요인들을 생각해 보았 을 때 출연 배우나 장르와 같은 변수들을 추가적으로 포함 할 수 있다. 하지만 출연 배우의 경우 시대 및 국가에 따라 그 영향력의 차이가 크고 이를 명확하게 나타낼 수 있는 지표가 없어 제외하였고 장르의 경우 명확히 한 가지 장르 로 제공되는 것이 아닌 작품의 특성을 여러 범위로 표현하 여 분류 기준이 되기 어렵다고 판단하여 제외하였다. 기존 박지윤 등의 ‘개봉 전후 트윗 개수의 증감률과 영화 매출 간의 상관관계’ 연구와 구훈영 등의 ‘극장과 VOD 흥행에 서 홀드백을 포함한 영화 흥행 요인의 영향’ 연구에서는 영화 흥행 요인으로 장르, 배우, 감독, 등급, 제작비, 평점, 배급사 규모, 스크린 수, 상영 시기 등을 꼽았다[8, 10].
이 중에서 OTT 서비스 콘텐츠의 수집 가능한 데이터 및 자체적 특성을 고려하여 본 논문에서는 아래와 같은 변수들을 선정하였다.
2.1 평점
일반적으로 평점은 시청자 수와 함께 작품의 흥행 여부 를 나타내는 대표적인 지수로 알려져 있으며, 대표적인 평 점 플랫폼으로는 IMDb와 로튼토마토가 있다. 본 연구에 서는 이 중에서 전문가 위주의 평가로 이루어진 로튼토마 토보다 일반인 위주의 평가로 이루어진 IMDb가 대중의 기호를 잘 반영한다고 생각하여 채택하였다. IMDb 평점 은 0~10점의 소수 첫째 자리까지 표기되며 평점이 높을수 록 호평을 받은 작품이라고 평가할 수 있다.
2.2 관람등급
관람등급은 영상물의 내용이나 표현 등을 심의하여 연 령별로 관람할 수 있는 기준을 정하는 것으로 전 세계에서 각국의 기준에 따라 시행하고 있다. 우리는 전 세계 방영 된 넷플릭스 오리지널 작품들을 대상으로 분석을 진행하 기 때문에 각국마다 다른 관람등급 기준을 표준화하고자 평점 데이터를 가져오는 IMDb 사이트에 기재된 관람등급 을 기준으로 한다.
2.3 방영 연도
방영 연도는 영화나 드라마가 방영을 시작한 연도를 의 미하며 넷플릭스에서는 시리즈물의 경우 제작을 끝마치고 전편을 동시 공개하는 것을 원칙으로 하기 때문에 상영 일과 종영 일이 같다고 볼 수 있다.
2.4 러닝타임
러닝타임은 방송 프로그램이나 영화와 같은 영상물의 상영 길이를 시간으로 나타낸 것을 의미한다. 본 논문에서 는 드라마와 영화를 대상으로 하는데 드라마의 경우 매 회마다 러닝타임이 다르므로 이를 가장 짧은 회차와 가장 긴 회차의 평균으로 러닝타임을 규정한다.
2.5 감독 수상개수
영화나 드라마를 평가할 때 제작자인 감독의 영향력은 상당히 중요하게 여겨진다. 본 논문에서는 감독의 유명세, 영향력을 보여주는 지표로서 감독의 수상작 개수를 활용 한다. IMDb 기준으로 검색한 결과를 참조하였으며 감독 이 두 명 이상인 경우 더 많은 수상작을 가진 감독의 수상 개수로 선정하여 진행한다.
2.6 넷플릭스 심의규정
넷플릭스에서 자체적으로 평가하고 제공하는 심의 규 정에는 주제의 유해성, 선정성, 폭력성, 욕설, 공포, 약물, 모방위험으로 7가지 규정이 있다. 각 작품 별로 높음, 다소 높음, 보통, 없음으로 4가지 단위로 표기된다. 예를 들어, 작품 ‘하우스 오브 카드’의 경우 모방위험 높음, 공포도 보 통, 선정성 높음, 폭력성 높음, 욕설 높음, 약물 높음, 주제 의 유해성 높음으로 표기된다.
3. 방법론
3.1 데이터 수집 및 전처리
본 논문에서는 파이썬을 이용한 웹 크롤링을 통해 IMDb 홈페이지와 넷플릭스 공식 홈페이지에서 넷플릭스 오리지 널 작품들의 데이터를 수집한다. 이때 수집한 데이터의 종 류로는 앞서 언급한 평점, 관람등급, 방영 연도, 러닝타임, 감독, 7가지 넷플릭스 심의 규정들이 있다. 그 후 동명의 다른 작품에 대한 데이터를 추출한 경우, 잘못된 데이터를 추출한 경우 등에 대하여 일련의 확인, 수정 과정을 거치고 감독 데이터의 경우 영향력을 정량적으로 나타내기 위한 수상 개수 데이터로 치환한다. 결측치의 경우, IMDb에서 가져온 감독 수상 개수는 소수 작품의 경우 결측치가 있었 는데 이는 감독 프로필을 따로 검색하여 수기로 채워 넣는 방식으로 처리하였다. 또한 넷플릭스 심의 규정의 경우 각 각의 작품마다 선정성, 공포 등 표기되지 않은 항목들이 존재하였는데 이는 넷플릭스 사에 확인해 본 결과 선정성 자체가 매우 낮아 표기하지 않은 것으로 본 논문에서는 ‘없음’이라는 범주로 표기하여 나타낸다.
3.2 독립변수들 간 다중공선성 확인
다중공선성은 독립변수들(관람등급, 방영 연도 등) 간의 상관관계가 있는 것을 말한다. 다중공선성이 있는 것은 회귀 분석의 전제 가정을 위배하므로 반드시 문제를 해결해 주어 야 한다. Ridge 회귀는 다중공선성을 처리하지만 변수 선택 이 불가하므로 본 연구에서는 배제되었다. 측정 방법 중 가장 많이 사용하는 방법은 VIF(분산팽창계수)이며, 일반적 으로 VIF 값이 10 이상일 경우(=GVIF^(1/(2*df))가 2 이상일 경우) 다중공선성이 있다고 판단한다. df는 자유도이며, 알 수 없는 모집단 모수의 값을 추정하고 이러한 추정치의 변동성을 계산하는 데 사용할 수 있는 데이터가 제공하는 정보량이다.
본 논문에서는 드라마와 영화 데이터의 성공작과 실패 작에 대한 데이터 셋의 다중공선성을 통계 분석 프로그램 R에서 car 라이브러리를 이용하여 확인하며, 판단 기준으 로 GVIF^(1/(2*df) 계수를 사용한다. 2 이상의 경우 다중 공선성 문제가 있다고 판단하고 다중공선성 문제가 있다 고 판단된 변수들 중 가장 계수가 큰 변수들부터 차례로 제거하며 다중공선성을 확인한다. 다중공선성 문제가 없 을 때까지 진행하여 다중공선성 문제를 해결하였다.
3.3 Cook’s distance를 이용한 이상치 검출
이상치는 데이터 내에서 다른 경향을 보이는 값들을 말한 다. 이상치 값들을 처리하지 않으면 분석 결과가 왜곡될 수 있으므로 데이터를 분석하기 이전에 처리해 주어야 한 다. 회귀 분석에서 이상치는 잔차와 레버리지가 큰 것이며 Cook’s distance는 잔차와 레버리지를 동시에 볼 수 있는 이상치 검출 방법이다. Fox의 판단 기준에 따르면 4/N(N: 전체 작품의 개수)보다 값이 큰 경우 이상치라 판단한다. 본 논문에서는 통계 분석 프로그램 R의 cooks.distance 함수 를 이용하여 이상치 검출을 실시하였으며 이상치로 판단된 데이터들은 제거하여 모델의 정확성을 높이고자 한다.
3.4 회귀분석을 이용한 상관성 분석
본 논문에서는 통계 프로그램 R을 이용한 회귀분석을 통해 변수들과 평점과의 상관성을 분석해 보고자 한다. 다 중 선형회귀분석은 하나의 종속변수와 다수의 독립변수 간의 상관관계를 나타낼 수 있는 분석으로, 본 논문에서는 아래 형태의 식을 가진다.
Y는 종속변수로 평점에 해당하고, X는 독립변수로 각 각 X1 = 작품 평균 길이, X2 = 감독 수상 개수, X3 = 관람 등급, X4 = 방영 연도, X5 = 유해성, X6 = 선정성, X7 = 폭력성, X8 = 욕설, X9 = 공포, X10 = 약물, X11 = 모방위험 에 해당한다. β는 선형회귀계수이며, 기본 가정으로 ε는 기댓값이 0이고 분산이 일정한 정규분포를 따라야 하며, 독립성, 등분산성, 정규성을 만족해야 한다. 본 논문에서 는 드라마와 영화 데이터를 성공작과 실패작으로 나누어 회귀분석을 실시하여 여러 변수들과 성공작, 실패작 사이 의 상관성 분석을 실시한다.
3.5 변수선택법
다중회귀분석을 진행함에 있어서 적절한 변수들을 선 택하는 것은 매우 중요하다. 단순히 많은 수의 변수들을 선택하는 것이 아닌 충분히 유의미한 변수들을 선택하여 분석을 진행하여 모델의 정확도를 향상시킬 수 있다. 이러 한 변수 선택 방법은 변수를 차례대로 넣으며 유의미함을 판단하는 전진 선택법, 반대로 변수를 차례로 제거하며 판 단하는 후진 제거법, 전진 선택을 하면서 단계별로 후진 제거를 고려하는 단계별 선택법, Lasso나 Elastic Net 등이 있다. Lasso 기법은 기여도가 낮은 계수들은 0으로 수렴하 도록 하고 기여도가 높은 특정 변수의 계수들은 실제보다 커지는 단점을 가지고 있어 분석 결과의 왜곡을 방지하기 위해 배제하였다. Elastic Net의 경우 데이터 셋의 크기가 작을 때 효과가 적게 나타나는 특징이 있다. 본 논문의 경 우, 넷플릭스 오리지널 데이터 419개만을 다루며, 이를 드 라마와 영화로 나누고 각각 성공작과 실패작으로 나누어 분석을 진행하기 때문에 배제하였다. 변수 선택법에서 주 로 많이 쓰이는 기법은 후진 제거법과 단계별 선택법인데 단계별 선택법의 경우 한 번만 수행해야 하는 검정 기법을 여러 번 수행한다. 이로 인해 제1종 오류 발생 가능성이 증가하게 되어 표준오차나 p-value가 실제보다 작게 추정 되거나 파라미터의 회귀계수가 실제보다 과다 추정될 수 있다는 문제점을 가진다. 따라서, 본 논문에서는 변수 선 택법 중 가장 흔히 사용하는 후진 제거법을 사용하여 최적 모형을 도출하고자 한다.
최적 모형의 판단 기준은 AIC(Akaike Information Criterion)이며, AIC가 작을수록 바람직한 모형이라 판단 한다. AIC는 로그 가능도 함숫값이 높으면 가산점을 주고 모형에 사용된 모수가 많으면 페널티를 주는 방식으로 구 성되며, 다음과 같이 나타낼 수 있다.
3.6 잔차 진단 및 독립성 검정
잔차는 관측값과 회귀직선의 예측값과의 차이를 말하 며 본 논문에서는 IMDb 실제 평점과 회귀 모델로 예측한 평점의 차이를 의미한다. 회귀분석에서 잔차는 정규분포 를 따르고 자기상관관계가 없으며 분산이 일정하여 특정 패턴이 보이지 않는다는 가정을 따른다. 따라서, 회귀분석 을 진행하고 나서 잔차 진단을 통해 등분산성, 정규성을 만족하는지 확인해야 한다. 또한, 자기상관관계 여부 확인 을 위해 더빈 왓슨 테스트를 통해 검정하고자 한다. 더빈 왓슨 통계량은 0~4의 범위이며 2 근처의 값이 나오면 독 립성을 만족한다고 볼 수 있다.
본 논문에서는 회귀분석을 실시하고 잔차 진단 및 더빈 왓슨 테스트를 통해 독립성, 등분산성, 정규성 만족 여부를 확인하여 회귀 모형의 정확도를 높이는 과정을 실시한다.
4. 실험
본 논문에서는 넷플릭스 오리지널 작품들을 대상으로 하며 드라마와 영화 분석을 따로 진행한다.
드라마는 기본적으로 시즌 당 최소 10편 이상으로 구성 되는 반면, 영화는 일반적으로 한 개의 편, 혹은 시리즈물 로 2~3편 기간을 두고 제작되는 점의 차이가 있으며 소비 층에서도 큰 차이를 보인다. 이러한 드라마와 영화의 특성 차이를 고려하여 따로 분석을 진행한다. 또한, IMDb 평점 의 중앙값을 기준으로 하여 성공작과 실패작을 나누어 각 각 회귀분석을 진행하여 성공 요인과 실패 요인을 도출해 내고자 한다. 성공과 실패로 나누어 분석을 진행하는 이유 는 더욱 명확한 요인들을 도출하기 위해서이다. 성공과 실 패로 나누지 않고 전체 데이터 분석을 수행하게 되면 상관 성을 보이는 변수가 성공 요인인지 아니면 작품(영화나 드 라마)이 가지는 고유 특성인지 명확히 구분하기 어렵다. 성공과 실패를 나눠서 분석을 수행하면 성공 데이터 셋에 서 상관성을 보이는 변수는 성공 요인으로 실패 데이터셋 에서 상관성을 보이는 변수는 실패 요인으로 구분할 수 있으며, 성공 데이터 셋과 실패 데이터 셋 둘 다 상관성을 보이는 변수는 작품 고유의 특성으로 고려할 수 있다.
4.1 데이터 수집 및 전처리
웹 크롤링 기법으로 12개의 변수를 수집했으며, 본 논문에 서는 <Table 1>에서 보듯이 작품 평균 길이(Mean_Length), 감독 수상 개수(Director_max_award), 관람등급(Age), 방영 연도(Year), 유해성(Harmful_themes), 선정성(Lewdness), 폭 력성(Violence), 욕설(Profanity), 공포(Fear), 약물(Drugs), 모 방위험(Immatatable), 평점(all_rating)으로 지칭하겠다.
또한, 범주형 변수인 방영 연도, 유해성, 선정성, 폭력성, 욕설, 공포, 약물성, 모방위험의 경우 순서형 변수가 아닌 명목형 변수로 판단하였는데 유해성 변수로 예를 들어 보 면 유해성의 정도의 차이에 따라 평점의 정도의 차이에 영향을 미치는 것이 아닌 유해성 ‘높음’인 작품들이 평점 과의 어떤 상관관계를 보이는지, 유해성 ‘보통’인 작품들 의 평점과의 어떤 상관관계를 보이는지를 연구해 보고자 했기 때문이다. 원활한 회귀분석을 위해 원-핫 인코딩으로 변경하여 저장한다. <Table 2>와 같이 각 변수에 해당하는 경우 1, 그렇지 않은 경우에는 0으로 표기하여 구분한다.
추출한 데이터를 확인, 수정하는 전처리 과정을 거치고 영화와 드라마를 한 개의 데이터 파일로 저장한다. 통계 분석 프로그램 R을 이용하여 총 589개의 데이터 중 170개 드라마와 419개 영화를 따로 불러와 각각 데이터 프레임 으로 분석을 진행한다.
4.2 다중공선성 확인
다음은 영화 데이터의 각 독립변수에 대한 다중공선성 을 나타낸 지표이다.
다중공선성 확인 시 원-핫 인코딩으로 변경한 이후의 데이 터로 확인할 경우 변수 간 상관관계가 실제보다 더욱 높게 나타나는 문제가 발생할 수 있어 원-핫 인코딩으로 변경하기 이전 데이터로 다중공선성을 확인했다. GVIF^(1/(2*df))가 2 이상인 경우 다중공선성 문제가 있다고 볼 수 있다. 영화 데이터의 경우 관람등급과 유해성이 각각 2.3437, 2.1759 정도(Table 4)로 다중공선성 문제를 보였다. 따라서, 영화 데이터에서 GVIF^(1/(2*df)) 값이 가장 높은 관람등급 변수 를 제거한 후 다시 다중공선성을 확인해 보았고, Table 5와 같이 모두 기준을 만족함을 알 수 있다.
다음은 드라마 데이터의 각 독립변수에 대한 다중공선 성을 나타낸 지표이다.
드라마 데이터의 경우 관람등급, 유해성, 욕설이 각각 4.004, 2.9505, 2.7719 정도(<Table 6>)로 다중공선성 문제 를 보인다. 따라서, 드라마 데이터에서 GVIF^(1/(2*df)) 값 이 가장 높은 관람등급 변수를 제거한 후 다시 다중공선성 을 확인해 보았고, <Table 7>과 같이 모두 기준을 만족함 을 알 수 있다.
4.3 Cook’s distance를 이용한 이상치 검출
다음은 영화와 드라마의 성공, 실패 데이터에 대한 Cook’s distance로 이상치를 검출한 그림을 나타낸 것이다. 각각의 그림에서 표시된 인덱스는 Fox의 Cook’s distance 기준값인 4/N(N : 전체 작품의 개수)보다 큰 경우이며 이 상치로 판단한다. 본 논문에서는 이상치로 검출된 데이터 들을 모두 제거하고 진행하였다.
<Figure 2>는 성공작으로 분류한 영화 데이터의 이상치 를 검출한 것이다. 성공 영화 데이터에서 15개의 이상치 (142(Quincy), 22(Love per Square Foot), 175(Birders) 인덱 스 등)가 검출된 것을 확인할 수 있다.
<Figure 3>은 실패작으로 분류한 영화 데이터의 이상치 를 검출한 것이다. 실패 영화 데이터에서 9개의 이상치 (120(The Forest of Love), 97(Unicorn Store), 130(The Knight before Christmas) 인덱스 등)가 검출된 것을 확인 할 수 있다.
<Figure 4>는 성공작으로 분류한 드라마 데이터의 이상 치를 검출한 것이다. 성공 드라마 데이터에서 3개의 이상치 (28(Alexa&Kaite), 16(Spinning Out), 24(Santa Clarita Diet) 인덱스)가 검출된 것을 확인할 수 있다.
<Figure 5>는 실패작으로 분류한 드라마 데이터의 이상 치를 검출한 것이다. 실패 드라마 데이터에서 8개의 이상 치(11(V Wars), 10(What/If), 42(Lost Song) 인덱스 등)가 이상치로 검출된 것을 확인할 수 있다.
4.4 회귀분석
이상치를 제외한 데이터에서의 영화와 드라마 데이터 를 평점의 중앙값을 기준으로 각각 성공작과 실패작을 나 누어 분류한다. 드라마의 경우 평점 최솟값은 3.3, 최댓값 은 8.8, 영화의 경우 최솟값은 2.5, 최댓값은 8.5이다. 분류 기준은 드라마는 7.35점, 영화는 6.4점을 기준으로 분류한 다. 다음으로 영화와 드라마 데이터의 성공 데이터 셋과 실패 데이터 셋에 대하여 회귀분석을 통계 프로그램 R의 MASS 라이브러리를 이용하여 분석을 진행한다. 판단 기 준은 p-value 값 0.05를 기준으로 하여 유의한 변수를 판단 한다. 다음은 영화, 드라마 데이터의 성공, 실패에 관한 회 귀분석 결과이다.
<Table 8>에 따르면, 영화 성공 데이터 회귀분석 결과 감독 수상 개수, 약물성(보통), 모방위험(높음, 다소 높음) 이 유의한 변수라 볼 수 있으며 욕설(보통)의 경우 약한 상관관계가 있음을 확인할 수 있다.
<Table 9>에 따르면, 영화 실패 데이터 회귀분석 결과 공포(다소 높음), 약물성(높음)이 유의한 변수라 볼 수 있 으며 폭력성(높음, 다소 높음), 욕설(보통)의 경우 약한 상 관관계가 있음을 확인할 수 있다.
<Table 10>에 따르면, 드라마 성공 데이터 회귀분석 결 과 유의하다고 판단된 변수는 없음을 확인할 수 있다.
<Table 11>에 따르면, 드라마 실패 데이터 회귀분석 결 과 폭력성(높음), 공포(높음), 약물성(다소 높음)이 유의한 변수라 볼 수 있으며 공포(보통)의 경우 약한 상관관계가 있음을 확인할 수 있다.
4.5 변수선택법
다음은 변수 선택법 중 후진 제거법을 이용하여 최적 모델을 찾는 과정이며 영화 성공 데이터, 영화 실패 데이 터, 드라마 성공 데이터, 드라마 실패 데이터 순으로 나타 낸 결과이다.
<Table 12>에 따르면, 영화 성공 데이터 후진 제거법 결 과 감독 수상 개수, 약물성(보통, 다소 높음), 모방위험(높 음, 다소 높음) 이 유의한 변수라 볼 수 있음을 확인할 수 있다.
<Table 13>에 따르면, 영화 실패 데이터 후진 제거법 결 과 공포(다소 높음), 약물(높음, 다소 높음) 이 유의한 변수 라 볼 수 있으며 작품 평균 길이, 욕설(보통), 모방위험(보 통)의 경우 약한 상관관계가 있음을 확인할 수 있다.
<Table 14>에 따르면, 드라마 성공 데이터 후진 제거법 결과 감독 수상 개수, 선정성(보통)의 경우 약한 상관관계 가 있음을 확인할 수 있다.
<Table 15>에 따르면, 드라마 실패 데이터 후진 제거법 결과 폭력성(높음), 공포(높음, 보통), 약물(높음, 다소 높 음, 보통) 이 유의한 변수라 볼 수 있으며 폭력성(다소 높 음)의 경우 약한 상관관계가 있음을 확인할 수 있다.
4.6 잔차진단 및 독립성 검정
회귀분석의 기본 조건인 등분산성, 정규성, 독립성을 만 족하는지 알기 위하여 성공한 영화, 실패한 영화, 성공한 드라마, 실패한 드라마 각각의 잔차 그래프를 확인하고 더 빈 왓슨 테스트를 실시한다. 아래 그래프의 경우, 4분할로 나누어 왼쪽 위 Residuals vs Fitted 그림의 경우 선형성, 오른쪽 위 Normal Q-Q 그림의 경우 정규성, 왼쪽 아래 Scale-Location 그림의 경우 등분산성, 오른쪽 아래 Residuals vs Leverage 그림의 경우 이상치, 큰 지레점, 영 향 관측치를 확인할 수 있다.
<Figure 6>은 성공작으로 분류된 영화 데이터의 잔차 진단 그림을 나타내는 것이며, 특별한 잔차 패턴이 없는 것으로 보아 선형성, 정규성, 등분산성을 만족함을 알 수 있다.
<Figure 7>은 실패작으로 분류된 영화 데이터의 잔차 진단 그림을 나타내는 것이며, 선형성, 정규성의 그림은 특별한 잔차 패턴이 없는 것으로 보아 만족함을 알 수 있 다. 다만 등분산성의 경우 오른쪽 부분이 살짝 하단으로 치우치는 패턴이 존재하는 것을 알 수 있다.
<Figure 8>은 성공작으로 분류된 드라마 데이터의 잔차 진단 그림을 나타내는 것이며, 선형성, 등분산성의 경우 미세한 패턴을 보이며 정규성의 경우 QQ line에 살짝 벗어 난 형태를 보임을 알 수 있다.
<Figure 9>는 실패작으로 분류된 드라마 데이터의 잔차 진단 그림을 나타내는 것이며, 성공 드라마 데이터 잔차 그림과 마찬가지로 선형성, 등분산성의 경우 미세한 패턴 을 보이며 정규성의 경우 QQ line에 살짝 벗어난 형태를 보임을 알 수 있다.
성공 영화 데이터에 비해 나머지 데이터들은 선형성, 정 규성, 등분산성 그림에서 미세한 패턴이 존재하는데 이는 데이터가 상대적으로 적어 나타난 현상이라고 볼 수 있으 며 회귀분석의 가정을 위배할 정도는 아니라고 판단했다.
독립성 검정을 위해 더빈 왓슨 테스트 결과 통계량이 2 근처의 값이 나올 경우 자기 상관관계가 없다고 볼 수 있다. 다음은 영화, 드라마의 성공, 실패 데이터의 더빈 왓 슨 통계량을 표로 나타낸 것이며, 모두 독립성을 만족함을 확인할 수 있다.
5. 결론 및 향후 연구
본 논문에서는 평점을 기준으로 하여 넷플릭스 오리지 널 작품들의 성공과 실패 요인을 도출하여 품질 향상에 기여하고자 하였다. 분석 기법으로 선형회귀분석을 이용 하였으며 변수 선택 기법으로 후진 제거법을 이용하였다.
<Table 17>에서 보여주듯이, 넷플릭스 오리지널 성공 영화 데이터의 유의한 변수는 감독 수상 개수, 보통과 다 소 높은 약물성, 높거나 다소 높은 모방 위험이 있었으며, 실패작의 경우는 유의한 변수로 다소 높은 공포, 높거나 다소 높은 약물성이 있었다. 약물성의 경우, 성공작과 실 패작의 유의한 변수로 모두 포함된다. 이와 같은 경우 성 공 요인과 실패 요인으로 보지 않고 영화 작품의 고유 특 성으로 볼 수 있다. 따라서, 성공 영화의 유의한 변수는 감독 수상 개수와 다소 높음 이상의 모방위험이며, 실패작 의 유의한 변수는 다소 높은 공포가 있다.
넷플릭스 오리지널 성공 드라마 데이터의 유의한 변수 는 감독 수상 개수, 보통의 선정성이 약한 상관관계로만 있었다. 실패작의 유의한 변수는 높은 폭력성, 높거나 보 통의 공포, 약물성이 있다.
본 연구를 바탕으로 최종적인 영화와 드라마의 성공, 실 패 요인을 해석하면 다음과 같다.
영화는 감독 수상 개수가 많을수록, 모방위험의 정도가 다소 높음과 높음일 경우 성공하며, 공포가 다소 높을 경 우 실패한다고 볼 수 있다.
드라마는 폭력성이 높음인 경우, 공포가 높음과 보통인 경우, 약물성이 높음과 보통인 경우 실패한다고 볼 수 있다.
본 연구는 OTT에 대한 pilot study로서, OTT 특성을 고 려하여 작품의 성공 요인 및 실패 요인에 대해 연구하였 다. 이 연구에서 제시하는 모형을 검증하고자 오리지널 드 라마와 영화에 대해 각각 결정 계수를 산출하였다. 결정 계수 R2의 경우 드라마 성공작들은 0.67, 드라마 실패작 들은 0.61, 영화 성공작들은 0.54, 영화 실패작들은 0.49으 로 나타난다. 영화의 경우 드라마 대비 높은 결정계수를 갖지 않는다. 즉, 본 연구에서 사용한 변수들 이외에도 평 점에 영향을 미치는 다른 변수들이 있는데 이 중에서는 외부에 공개 되어 있지 않은 변수들이 다수 있어 본 논문 에서 분석한 변수들로만 평점을 온전히 예측하기란 어렵 다는 한계를 지닌다. 따라서 추후 연구에 OTT 서비스 콘 텐츠 특성을 반영할 수 있는 변수들을 탐색하여 반영할 예정이다. 다만 본 연구에서는 평점을 예측하는 것이 아닌 평점에 유의한, 혹은 유의하지 않은 변수들을 찾는 데 있 어서 그 의의를 두고 있기 때문에 분석의 신뢰도를 떨어트 리지는 않는다.
미디어 산업 특성상 일반적으로 콘텐츠에 대한 매출, 영 향력에 대해 분석할 때 평점뿐만 아니라 시청자 수를 고려 하는 것이 중요하다. 하지만 앞서 언급하였듯이 OTT 서비 스 특성에 따라 한번 시청했던 콘텐츠를 다시 보는 일이 매우 잦기 때문에 시청자 수는 콘텐츠의 흥행을 대표하기 어렵다. 따라서 고유의 특성을 더욱 반영하기 위해 평점을 기준으로 분석을 진행하였다.
본 논문에서 회귀분석의 잔차 그림을 살펴보면 성공 영 화 데이터에 비해 상대적으로 데이터 수가 적은 다른 데이 터들은 기본 가정에 대한 만족도가 다소 떨어지는 한계를 가진다. 이는 현재 폭발적으로 성장하는 OTT 시장의 오리 지널 콘텐츠에 대한 수요와 공급을 고려하면 향후 연구를 통해 충분히 보완 가능할 것으로 보인다.
기존에 강수연 등의 ‘국내 드라마 시청률 예측 및 영향 요인 분석’에서는 시청자 수를 대변하는 시청률과 여러 요 인들과의 상관성에 대하여 분석하였다[6]. 본 논문에서는 흥행, 매출과 관련하여 시청자 수에 비해 설득력이 떨어지 는 평점을 기준으로 하여 분석을 진행하였으나 현재 미디 어 산업의 중심이 TV나 극장에서 OTT 서비스로 변화하고 있다는 점, 그리고 OTT 산업의 핵심으로 주목받고 있는 오리지널 콘텐츠를 분석 대상으로 한다는 점에서 주목할 만하다. 또한, 평점은 소비자가 직접 매긴 작품에 대한 선 호도이며, 이는 작품 제작 측면에서 볼 때 성공이냐 비 성 공이냐의 큰 판가름이 될 수 있다. 소비자의 니즈를 정확 히 파악하고 그에 맞는 작품을 제공하게 되면 더 많은 소 비자를 유치할 수 있게 되며, 이전 작품의 흥행으로 인해 다음 작품에 대한 소비자의 기대 및 관심 역시 증가하는 점에서 경영적 측면에서도 밀접한 관계가 있다. 콘텐츠에 대한 매출과 흥행보다 콘텐츠 품질 향상을 통한 OTT 서비 스의 지속 가능성, 구독 유지 가능성에 대한 분석을 목적 으로 할 때 본 논문에서 제시하는 평점을 이용한 분석은 충분히 유의미하다고 보인다.