티스토리 뷰

We think about IT

[크롤링] 크롤링의 법적 문제

알 수 없는 사용자 2020. 9. 26. 21:40

Why So Serious? Just For Fun. No Fun No Gain

 

누누 컴퍼니 내부에서 네트워크가 아닌 다른 주제의 포스팅을 원하여 새로운 주제를 선정하는 중입니다. 아마 데이터 베이스나 크롤링에 관련된 주제로 정해질 것 같습니다. 네트워크에 대한 나머지 내용들은 제 블로그를 열게 되면 이어서 포스팅하거나 추후에 다시 포스팅하도록 하겠습니다.

 

이번 포스팅에서는 크롤링의 법적 문제에 대해 이야기해볼까 합니다. 4차 산업혁명 시대가 되면서 데이터의 가치는 더욱 높아졌습니다. 데이터를 이용하면 소비자의 행동을 분석하거나 시장 변동을 예측해내는 것도 가능하며 영상을 실시간으로 인식하여 사람을 구별하는 것도 가능합니다. 그 외에도 데이터를 이용한 사례들은 기술의 발전에 따라 무궁무진해지고 있습니다.

 

데이터의 가치가 높아지며 함께 대두한 문제는 데이터의 불균형이었습니다. 기존에 존재하는 기업들은 이미 많은 양의 데이터를 확보한 상태였고, 신생 기업들은 데이터를 모으는데 어려움을 겪고 있었습니다. 데이터의 빈익빈 부익부 현상은 기업의 성장에도 직결되는 문제가 되었고, 신생 기업들은 기성 기업들을 빠르게 따라잡기 위해서 크롤링을 시도하게 된 것입니다.

 

데이터의 빈익빈 부익부 현상을 줄인다는 허울 좋은 목적이 있지만 크롤링은 불법입니다. 실제로 사람인은 크롤러를 통한 자동 게재 시스템을 통해 잡코리아의 채용정보를 복제하여 게시하였고, 2008년 잡코리아에서는 이를 문제 삼아 소송을 제기하게 되었습니다. 10년의 공방 끝에 2018년 대법원에서는 크롤링이 위법 행위임을 선고하였습니다.

 

크롤링은 경쟁사의 컨텐츠를 가져와 활용하는 부분도 문제가 되지만 트래픽의 관점에서도 문제를 발생시킵니다. 사이트에 있는 대량의 정보를 크롤링하기 위해 지속적으로 빠르게 서버를 긁어내게 되면 마치 디도스 공격 같은 효과를 내게 됩니다. 또한 트래픽의 과다는 서버를 운영하는 회사의 막대한 부담금으로 작용하게 됩니다.

 

그렇다면 모든 부분의 크롤링은 불가능할까. 그렇지 않습니다. 각 웹사이트는 robots.txt라는 파일을 이용하여 검색엔진이 크롤링을 하지 않길 바라는 부분을 표시하고 액세스 권한도 알려줍니다. robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다. robots.txt 파일은 항상 사이트의 루트 디렉터리에 위치해야 하며 로봇 배제 표준을 따르는 일반 텍스트 파일로 작성해야 합니다. 하단에 첨부한 네이버의 글을 보면 robots.txt 규칙 예제를 참고할 수 있습니다.

 

robots.txt 설정하기

robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다. robots.txt 파일은 항상 사이트의 루트 디렉터리에 위치해야 하며 로봇 배제 표준을 따��

searchadvisor.naver.com

아무리 robots.txt에 액세스를 허용하고 있더라도 개인정보와 관련되어 있다면 문제가 발생할 수도 있습니다. 결론적으로 크롤링을 할 때는 아래와 같은 것들을 신경 써야 한다고 전문가들이 이야기합니다.

 

1. 스크랩하는 컨텐츠에 지적재산권이 있는지 

2. 크롤링 하는 행동이 사이트에 큰 부담을 주지 않는지

3. 크롤러가 사이트의 이용 방침을 위반하지 않는지

4. 크롤러가 사용자의 민감한 정보를 가져오지 않는지

5. 가져온 컨텐츠를 적합한 사용 표준 하에 사용하는지

 

추후에 글의 주제가 크롤링으로 선정되게 된다면 크롤링용 전용 사이트를 직접 제작하여 예제를 올려드릴 예정입니다. 읽어주셔서 감사합니다.

 

댓글