All Things IT

페이스북, 정책위반 컨텐츠 검출 AI 강화로 '인터넷 괴롭힘' 검출율 85% 향상 본문

뉴스 + 소식

페이스북, 정책위반 컨텐츠 검출 AI 강화로 '인터넷 괴롭힘' 검출율 85% 향상

올티아티 2019.05.05 17:23

페이스북의 연례 개발자 회의인 "F8 2019"의 이틀째인 5월 2일(현지 시간) 기조연설은 예년과 마찬가지로 AI, AR, VR 과 관련된 내용에 대해서였습니다.

페이스북의 최고기술책임자인 마이크 슈로퍼는 페이스북에서 다양한 문제를 해결하기 위해 사용하고 있는 AI 도구 등에 대해 이야기 했습니다.

F8 기조연설에서 연설중인 마이크 슈로퍼


정책을 위반한 컨텐츠를 탐지해내기 위해서 페이스북이 자연 언어 처리(NLP)와 컴퓨터 비전(CV) 부문에 기울이고 있는 노력을 소개하기도 했습니다.


데이터가 적은 언어의 글도 체크 가능한 공유 다국어 삽입 공간

페이스북은 정책위반 게시물을 검출하기 위해 기회학습 시스템을 활용하고 있었지만, 지금까지는 데이터가 적은 언어의 경우 검출이 어려웠습니다. 페이스북은 과거 미얀마어를 자동 해석 및 분석하지 못해 로힝야족 문제에 신속하게 대처할 수 없었습니다.

이 문제를 해결하기 위해서 일종의 공용어 역할을 하는 공유 다국어 삽입 공간을 개발해냈다고 합니다. 이를 통해 다국어 단어 훈련 작업에서 추가적인 언어 라벨 부착 훈련 데이터 없이도 여러 언어에 대해 정책 위반 컨텐츠 검출이 가능해졌다고 합니다.

정책 위반 이미지 검출에 도움, Panoptic FPN

이미지 분석을 위한 종래의 DeepMask와 같은 기술은 사람이나 물체와 같은 사물 개체 식별에는 뛰어났지만, 배경 분석은 고역이었습니다.

"Panoptic FPN"(파노라마적 특징 피라미드 네트워크)라는 개체 인식의 새로운 접근 방법을 사용하고 단일 신경망에서 사물 인식용 작업과 배경 인식용 작업을 동시에 실행하는 데 성공했다고 합니다. 이로써 분석 시간을 대폭 단축할 수 있고 정책 위반 이미지의 검출이 개선되었습니다.

"Panoptic FPN"


해시 태그를 이용한 기계 학습 영상 분석과 "현저성 샘플러"


이 기술은 동영상에도 활용할 수 있지만, 동영상은 하나의 장면을 구성하는 다수의 이미지와 그 이미지를 순차적으로 표시하며 구성되는 움직임도 고려할 필요가 있어 동영상 전체를 분석하려면 시간이 걸립니다. 그래서 문제의 소지가 있는 장면, 프레임을 검출하는 "saliency sampler(현저성 샘플러)" 시스템을 개발했다고 합니다.

saliency sampler


이 시스템을 지난해 F8에서 발표한 Instagram의 해시 태그를 단 이미지를 활용한 이미지 인식 모델 훈련 데이터 분석에 사용하면 동영상 분석 정밀도가 향상되었다고 합니다.

이미 내부적으로 활용하고 있으며, 이 시스템을 사용한 이후부터 '인터넷 괴롭힘'의 검출율이 약 85% 올랐다고 밝혔습니다.

AI 샘플의 편향을 시정하기 위한 노력 등도 소개하는 기조 연설의 전체 내용은 아래의 YouTube 영상에서 확인해 볼 수 있습니다.

0 Comments
댓글쓰기 폼