data preprocess - 딥러닝 보이스피싱 탐지 앱 개발일지(2) : 데이터 수집 및 가공 계획 검토

조락이 2023. 4. 6. 02:05

*** 본 블로그는 친절하게 설명을 해주기 위함이라기보단 제가 해당 개념들을 공부하면서 참고한 자료들과 방식, 그리고 헷갈렸던 point들을 시계열 순서로 메모와 함께 정리해놓음으로써 스스로 나중에 다시 참고하기 편하게 하기 위한 블로그입니다. 무지성 억까만 아니라면 피드백 대환영이에용~ >0< ^~^

우선 첫번째 할일은, 금융감독원 보이스피싱 지킴이 보이스피싱 체험관에서 보이스피싱 음성/영상 데이터들을 웹 크롤링 / 웹 스크레이핑을 통해 수집하는 것이다. 둘을 엄밀히 구분해서 단어사용하는 경우는 많이 보지 못했지만, 웹 크롤링(Web Crawling)은 웹 사이트들을 돌아다니며 웹사이트들의 html 정보를 수집하는 과정이고, 웹 스크레이핑(Web Scraping)은 이렇게 수집된 html 정보들에서 내가 원하는 정보를 추출해내는 과정이라고 필자는 알고 있다. 혹시 잘못된 지식이라면 지적해주시는 분께 감사의 인사를 증정합니다!

우선 보이스피싱 체험관 페이지를 확인해보자.

https://www.fss.or.kr/fss/bbs/B0000203/list.do?menuNo=200686

금융감독원 통합홈페이지

금융감독원 통합홈페이지.

www.fss.or.kr

위 사진에서 볼 수 있듯이, 자료실에는 '바로 이 목소리' 란과 '그놈 목소리' 란이 존재한다.

'바로 이 목소리'에서는 영상 안에 자막이 달리지만, 개발일지(1)에서 언급한 선행연구1에서는 이 자막을 사용하지는 않은 것 같다. 현재로서도 저 자막을 간편하게 추출할 방법은 없어보이고, 이를 추출하기 위해 또다른 영상처리 딥러닝모델을 사용하는 과정이 동반되어야 할 텐데, 일단은 패스하고 이 영상도 음성파일로 변환 후 Google Cloud Flatform의 Speech-to-Text API로 transcript를 획득하는 것으로 한다.

다음 '그놈 목소리' 란에서는 '대출사기형'과 '수사기관 사칭형'으로 유형을 나눠서 음성 파일을 업로드 해두었다. 하지만 게시글 페이지의 형식 자체는 똑같아서 비슷한 웹 크롤링 과정을 한 번 더 반복해주면 되는 부분이다.

'그놈 목소리' 란의 음성 파일들은 위 사진과 같은 방식으로 업로드 되어 있는데, 위 사진처럼 음성 플레이어 아래에 transcript가 제공되는 경우도 있고, 그렇지 않은 경우도 있다. 이를 고려하여 웹 스크레이핑을 진행하기로 한다.

먼저 src 폴더의 구조를 보자.

audio_pageurl_collect.py : 먼저 '그놈 목소리 - 대출사기형'의 게시판을 크롤링하며 각 게시글 링크를 수집한다.
audio_src_url_collect.py : 수집한 게시글 링크를 돌며 mp3 파일의 href를 수집한다.
audio_src_download.py : 수집한 mp3 파일의 url을 돌며 다 다운받는다.
'그놈 목소리 - 수가기관 사칭형'에 대해서도 1, 2, 3의 과정을 똑같이 밟는다.
video_pageurl_collect.py, video_srcurl_collect.py, video_src_download.py : '바로 이 목소리' 게시판에서 1, 2, 3의 과정을 동일하게 수행한다. 다만, 이 경우 mp4 파일이다.
video_convert.py : mp4 파일들을 wav 형식으로 변환한다
video_trim_src.py : '바로 이 목소리' 카테고리에 있는 영상들은 초반 10초와 후반 5초에 인트로와 아우트로 효과음이 등장한다. 그러므로 이 부분을 오려내면(trim) 더 좋은 데이터의 마련이 가능하다고 판단하였다.

이렇게 금융감독원 사이트에서 약 500개의 영상/음성 데이터를 수집하였고, 이들을 mp3, wav 형태로 변환 저장하였다.

위의 과정을 통해 '보이스피싱 양성 데이터'의 음성 수집이 완료되고, 더 자세한 내용은 추후 포스트에서 더 자세히 다룰 것이다.

저작자표시 (새창열림)