네이버 기술 컨퍼런스 Dan 25 - 개인화·VLM·에이전트가 완성하는 네이버 클립 경험

일상/회고

네이버 기술 컨퍼런스 Dan 25 - 개인화·VLM·에이전트가 완성하는 네이버 클립 경험

계범 2025. 11. 10. 22:06

개인화·VLM·에이전트가 완성하는 네이버 클립 경험

클립은 숏츠나 릴스와 비슷한구조로 네이버에서 제공하는 짧은 영상

해당 클립의 사용자 재생수를 극대화하는 추천 제공을 위한 방법에 대해 소개해줌.

고품질 클립 & 채널 추천풀 구축

하루 2만여개의 신규 클립 생성됨.

전체 콘텐츠를 쓸 경우, 추천 성과나 사용자 경험 저하로 이어질 가능성 존재.

따라서, 고품질 콘텐츠만 선별하는 필터링 레이어가 필수

human labeler가 검토한 자료를 기반으로 레이블링하여 안정성 및 품질 검수. ( 모델 학습 기반 )

시청 몰입도를 표현하는 데이터(영상길이 대비 시청시간 등등) 로 재생 품질점수화.

영상 프레임, 텍스트 메타 데이터 등으로 모델을 학습시켜서 처리.

일부 선정성, 폭력성 등 테스트 데이터가 부족한 경우, 유사하지만 일부가 변경된 케이스들을 생성해서 보강.

우수 크리에이터도 선발하여 우선 추천하는 형태로 처리. ( 우수 크리에이터는 품질도 우수하고 시청 반응이 보편적으로 좋음 )

블랙 태그를 다는 모델로 선별한뒤,

재생 품질점수를 예측하는 모델로 스코어링을 기반으로 추천하는 형태.

우수 크리에이터 선발은

활발하고 활동하며,

업로드한 영상들이 좋은 반응을 얻으며,

영상간 반응의 편차가 적은 안정적인 크리에이터에게 더 높은 점수를 부여.

숏폼 뷰어 개인화 랭킹

retriever은 추천 가능성이 있는 후보군을 선정하는 단계.

ranker는 후보군중에서 추천할 것들을 선정하는 단계.

기존에는 통계 기반으로 사람이 직접 정한 값을 기반으로 했다면, (Hand-crafted Feature)

현재는 딥러닝을 통한 데이터로부터 특징을 자동 추출하여 학습 (Embedding-based Representations)

아이템 사이드 모델링

아이템 사이드 모델링 - CF Model

CF Model 은 Collaborative Filtering Model 의 줄임말
한국어로는 협업 필터링이라고 부르고, 추천 시스템의 가장 기본이 되는 방식 중 하나.

핵심 개념

비슷한 사람은 비슷한 아이템을 좋아한다
비슷한 아이템은 비슷한 사람들이 소비한다

즉, 유저 행동 데이터(시청/클릭/구매/좋아요 등) 만 보고
유저와 아이템 간 관계를 학습하는 방식.

최근 소비 아이템을 query embeddings으로 벡터값으로 변환하고 가장 유사한 벡터값을 가져옴.

비슷한 k개의 아이템을 후보군으로 선정하고 ranker에서 최종 순위를 매겨 추천.

다양한 retriever를 사용.

유저의 진입점에 따른 retriever도 이용했음.

아이템 사이드 모델링 - VLM 기반 임베딩

VLM 은 Vision-Language Model 의 약자로,
이미지(또는 영상) + 텍스트 를 같이 이해하는 모델을 의미

그림을 보고 글을 이해하고, 글을 보고 그림을 설명할 수 있는 모델.

유저 사이드 모델링 - 유저 액션 시퀀스 모델링 (TransAct)

항목값

로그 수	약 1.2억
유저 수	약 100만
아이템 수	약 4만

샘플링 전략:

너무 많이 보거나 너무 적게 보는 유저 제외
인기 편향 제거
카테고리 균형 조정

유저의 시청/좋아요/스킵 이력을
↓
임베딩 + Transformer 로 분석해서 ( 여기서 Time Window Mask 로 최근 행동을 더 중요하게 학습시키도록 제어. [가중치를 주는 형태] )
↓
유저의 현재 취향을 벡터(User Embedding)로 만든다
↓
추천 시스템에서 점수 계산할 때 사용한다

MLP(Multi-Layer Perceptron)

추천에서 MLP는 보통 유저 임베딩과 아이템 임베딩을 단순 결합해서 비선형 변환으로 점수(확률)을 예측하는 역할

사용자와 아이템의 관계를 비선형적으로 학습하는 기본 모델.

DCN (Deep & Cross Network)

MLP는 단순 변환이라 유저와 아이템의 상호작용 조합(Feature Interaction)을 깊게 반영하기 어려움.

Cross Layer: 사용자 Emb × 아이템 Emb (교차 상호작용 패턴 학습)
Deep Layer : MLP 형태로 복잡한 패턴 학습

즉 "교차 특징 + 딥 특징"을 동시에 학습하는 모델.

단순 MLP라면:

운동 + 요가 → 비슷 → 추천

DCN은:

운동 좋아하지만 '부드러운 음악 배경'이 있는 영상만 오래 보는 패턴까지 반영 → 더 정확한 추천

→ 상호작용 패턴까지 잡아냄

유저의 최근 행동 시퀀스를 Transformer(TransAct)로 임베딩하고,
그 임베딩과 후보 아이템 임베딩을 DCN + MLP에 넣어
유저가 그 아이템을 skip/view/like/hide 할 확률을 예측하는 구조

우측에 설명한 식은 유저의 행동 데이터는 불균형하므로 어려운 샘플에 가중치를 주는 식.

행동 비율 예시 문제

view	매우 많음	너무 쉽게 맞추는 샘플이 많음
like	상대적으로 적음	학습 시 신호 약함
hide / skip	매우 드묾	모델이 무시하기 쉬움

어떤 카테고리를 좋아하는지도 반영

이 외에도, 클립 개인화 추천 알림에 대한 내용도 있었음..!

저작자표시 비영리 변경금지 (새창열림)