NAI-logo_text-h40
NAI-logo_sm-h40

신문 26년 :
뉴스 빅데이터 시각화로 본 신문 보도의 역사

박대민 한국언론진흥재단 미디어연구센터 선임연구위원

지난 26년간 언론에서 가장 논쟁적인 정보원은 누구였을까? 어떤 해에 어떤 주제가 쟁점이 됐을까? 어떤 주장이 나왔고, 어떻게 반박됐을까? 이제 이러한 궁금증을 상당 부분 자동으로 풀 수 있게 됐다. 기계학습, 자연어처리, 의미연결망 분석 등 다양한 뉴스 빅데이터 분석 방법을 적용한 시스템 <빅 카인즈>를 통해서다.

한국언론진흥재단(이사장 김병호) 미디어연구센터 연구팀은 18일 다양한 사회적 의제에 대한 뉴스를 빅데이터 분석을 이용해 대규모로 살펴보는 뉴스 빅데이터 분석 전문보고서(뉴스 빅데이터 애널리틱스 앤 인사이트, 약어 NAI)를 창간했다. 분석을 위한 기초 데이터는 재단의 뉴스 빅데이터 시스템인 <빅 카인즈>를 통해 얻었다.

신문 26년 빅데이터 분석 새 창으로 보기

연결망 유형 선택

  • icon

    정보원

    연결망

  • icon

    기관

    연결망

  • icon

    주제

    연결망

개별 연결망 옵션

  • icon

    연도

  • icon

    매체

  • icon

    지면

NAI 창간호, 26년치 150만 건 기사 뉴스 빅데이터 분석

창간호에서는 1990년부터 2015년까지 26년간 8개 중앙지 및 그 자매지의 정치면, 사회면, 경제면에 보도된 기사 약 150만 건의 기사의 정보원과 인용문 주제를 분석했다. 국내 뉴스 빅데이터 분석 규모로는 최대다. 분석 매체는 경향신문, 국민일보, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레신문, 한국일보 등 <빅 카인즈>에서 서비스 예정인 주요 전국일간지 8개로, 디지털화된 종이신문 기사는 물론 이들 신문이 언론사 닷컴에 게재한 인터넷신문, 잡지 등의 기사를 모두 분석했다.

데이터 시각화 전문기업 <비주얼다이브>(www.visualdive.com, 대표 은종진)와 함께 뉴스 빅데이터를 효과적으로 보여주기 위한 사이트도 만들었다. 사이트는 핑거프레스, 차트 다이브 솔루션을 이용해 구현됐다. 사이트에선 경제지 4개와 문화면을 더해 310만여 건의 기사의 정보원연결망과 기관연결망, 주제연결망을 연도별, 매체별, 지면별로 선택해 볼 수 있다.

정치면 중요도 1위 정보원, 야당 대변인에서 대통령으로…
주제는 ‘미국’ 등 주변국 중시

가장 중요한 정보원을 분석한 결과 정치면은 야당 대변인의 시대에서 대통령의 시대로, 사회면은 정치인의 시대에서 교육부의 시대로 넘어갔다. 이러한 변화는 대체로 1999년부터 2000년대 초 사이에 이뤄졌으며 매체 간 차이는 거의 없었다.

<그림 2>는 기사 공동인용 정보원 수 기준으로 변인과 대통령의 중요도가 가장 높았던 1995년 세계일보의 박지원 대변인 중심의 정보원연결망과 2003년 서울신문의 노무현 대통령 중심의 정보원연결망을 비교한 것이다. 1995년은 새정치국민회의가 창당한 해, 2003년은 노무현 대통령이 취임한 해다. 박지원은 162명과, 노무현은 271명과 공동인용됐다.

사회면은 2000년 전후로 중요 정보원이 바뀌었다. 2000년 이전엔 국회의원 등 정치인의 비중이 높았다. 특히 검찰 출입 기자가 정치인에 대한 각종 수사를 취재하고 이에 대해 정치인들의 멘트를 받아 실는 경우가 많았다. 경제면의 경우 대부분의 시기에 재정과 금융 관료조직이 중시됐다. 다만 2000년대 초중반엔 주식이나 부동산 투자 등 재태크 관련 애널리스트나 컨설턴트가 부각됐다.

경제면 주제는 ‘중소기업’과 ‘미국’에서
‘소비자’와 ‘중국’으로

인용문 주제 분석으로 살펴보면 우선 정치는 ‘미국’ 등 주변국을 중요한 주제로 다뤘다. 또 1990년대엔 ‘민자당’ 등 보수정당이 가장 논쟁적인 화두로 던져졌다. 언뜻 앞서 야당 대변인이 중시된 정보원 분석 결과와 모순된다고 생각할 수 있지만, 이는 야당 대변인 역시 보수정당에 대한 비판을 주로 가했기 때문이다.

경제면의 주요 주제는 특히1998년 외환위기와 2008년 금융위기를 계기로 급변했다. 과거엔 ‘미국’과 ‘중소기업’이 주된 화두였지만, 금융위기 이후 ‘중국’과 ‘소비자’가 논쟁의 중심으로 부상한 것이다. 시기적으로 보면, 1990년대엔 ‘중소기업’, 외환위기 이후 3년간은 ‘구조조정’, 이후 ‘미국’ 주제가 중심이 됐고, 금융위기 후 ‘중국’과 ‘소비자’가 부각됐다. ‘소비자’가 중시된 건 홍보성 기사가 많아졌기 때문이다.

사회면은 다른 경우와 달리 매체간 차이가 눈에 띄었다. 한겨레사신문은 ‘노동자’을, 서울신문은 ‘공무원’을 특별히 중시했다. 가장 논쟁적인 주제는 2015년 ‘메르스’였다. 이밖에 ‘수사’ ‘피고인’ ‘피해자’ 등 경찰이나 검찰 관련 주제가 많았다. ‘서울’, ‘교육부’. ‘서울대’ 등 서울시나 교육 담당 출입기자가 다뤘을 만한 주제도 중시됐다.

기사 대폭 늘었지만 기사당 정보원과 주제는 감소

결측이나 미분류 기사가 있긴 하지만 추세만 보면, 26년간 기사가 매체별로 많게는 18배 가량 급증했다. 이는 전체적으론 종이신문의 지면 수도 늘어났으며, 인터넷 신문 등 자매매체도 많아졌기 때문이다. 이와 함께 정보원 수와 주제 수 또한 매체에 따라선 많게는 약 11배가 늘었다. 즉 인터넷 등장으로 절대적인 다양성은 더 커졌다. 그러나 기사당 정보원 수와 주제 수는 감소했다. 기사는 많이 쓰지만, 그만큼 정보원이나 주제를 발굴하진 못한 셈이다.

경제면의 주요 주제는 특히1998년 외환위기와 2008년 금융위기를 계기로 급변했다. 과거엔 ‘미국’과 ‘중소기업’이 주된 화두였지만, 금융위기 이후 ‘중국’과 ‘소비자’가 논쟁의 중심으로 부상한 것이다. 시기적으로 보면, 1990년대엔 ‘중소기업’, 외환위기 이후 3년간은 ‘구조조정’, 이후 ‘미국’ 주제가 중심이 됐고, 금융위기 후 ‘중국’과 ‘소비자’가 부각됐다. ‘소비자’가 중시된 건 홍보성 기사가 많아졌기 때문이다.

kpf-img_chartCaptured-2

※ 뉴스 빅데이터 분석 및 방법

– 검색어: 없음 (정치, 사회, 경제로 지면 분류된 모든 기사)
– 분석매체: 전국중앙지 8개 (경향신문, 국민일보, 문화일보, 서울신문, 세계일보, 한겨레, 한국일보)
– 분석지면: 정치, 사회, 경제
– 분석기사: 1,472,518만개 (정치면 505,002건, 사회면 483,053건, 경제면 484,463건 등 총 1,472,518건)
– 분석기간: 26년 (1990년 1월 1일-2015년 12월 31일)
– 분석항목: 정보원(중복 제거) , 인용문 주제(중복 제거)
– 분석의미연결망: 정보원연결망, 주제연결망
– 자료수집: <빅 카인즈>
– <빅카인즈> 자연어처리 성능: 인명 85.51%, 조직명 88.96%, 직업/직위 82.62%, 지역명 93.82% (이상 F1 score 기준), 인용문 추출 82.26%(정확도 기준)

만든이


책임연구 | 박대민 (dmpark@kpf.or.kr)
시각화 및 프로그램 개발 | 비주얼다이브(manager@visualdive.co.kr), 퍼넥스(david.kim@funexlab.com)
연결정도 중앙성 계산 프로그램 개발 | 강남용 (nykang@kaist.ac.kr)
데이터 수집 | 정재훈(jhjeong@saltlux.com)
분석요원 | 최순욱 (wooksoon@snu.ac.kr), 김우성(loycot@gmail.com) 외 2인

다운로드


ⓒ 2016 KOREA PRESS FOUNDATION. Powered by VISUAL DIVE & FUNEX.