타닥타닥6: Autoencoder based Recommendation: Autoencoder based Collaborative Deep Learning 본문
타닥타닥6: Autoencoder based Recommendation: Autoencoder based Collaborative Deep Learning
Savedata 2022. 6. 11. 18:26#Autoencoder based Recommendation
출처: Deep Learning based Recommender System: A survey and New Perspectives
https://arxiv.org/pdf/1707.07435.pdf
-추천시스템에서의 Autoencoder를 활용한 학습 방법에 대해서 간단히 정리해보자.
- AE를 추천 시스템에 활용하는 방안에는 일반적인 2가지 방법이 있다고 한다.
- AE의 bottleneck layer를 이용하여, Feature Representation을 Low-dimensional Feature를 학습하기 위해 사용한다.
- Reconstruction Layer에서 interaction matrix의 공백을 직접 채운다.
-Denoising 및 Variational Autoencoder등 대부분의 AE를 추천 분야에서 사용 가능하다.
-위의 2가지 방법 중 latent space를 이용하여 feature representation을 학습하는 방법을 다룬 논문에 대해 알아보고자 한다.
위 논문에서는 Matrix factorization과 SDAE(Stacked Denoising Autoencoder)를 합친 모델을 사용했다.
3. COLLABORATIVE DEEP LEARNING (이하 CDL)
빨간색으로 표시된 직사각형이 CDL에서의 SDAE가 차지하는 곳. AE를 사용하는 방식답게 학습을 통해서 X1 layer를 구성하도록 하고, 실제로 사용할 때는 학습된 input encoder 파트가 활용된다.
3.1 Stacked Denoising Autoencoders
X2는 bottleneck layer를 이며, X0에는 corrupted input을 넣고 마지막의 Xc에서 clean output을 얻고자 하는 형태
3.2 Generalized Bayesian SDAE
SDAE를 이용하여 clean input Xc에 대한 정보를 통해 corrupted input X0의 노이즈를 제거하고자 한다. 정확하게 이해한 것은 아니지만 대략 해석해보자면 람다s가 무한으로 가면 equation (1)의 가우시안 분포가 Driac delta distribution을 따르게 되고, 이를 통해 SDAE의 Bayseian formulation을 degenerate하게 된다는 듯 하다. 고로 reconstruction의 에러를 최소화하는 방식으로 학습이 이루어지고, 이를 통해 corrupted된 데이터를 clean하게 할 수 있다는 것이다.
3.3 Collaborative Deep Learning
CDL에서 SDAE를 이용하는 전체적인 프로세스.
위의 그림에서 볼 수 있듯이, Denoising AE를 이용하여 noise가 있는 데이터를 복하여 user와 item간의 관계를 latent spcae를 통해 알아낸다. Corrupted된 input을 학습을 통해 clean한 output으로 만들어내고, 그 과정에서 사용되는 latent space의 vector를 사용하여 item과 user의 관계를 알아내는 feature representation의 low-demensional feature를 뽑아내게 된다.
4. EXPERIMENTS
CDL과 다른 방법들을 이용한 학습 결과 비교. 역시 CDL을 이용한 결과가 가장 좋다고 말하고 있다.
#정리하며
추천을 위한 데이터는 깨끗하지 않은 데이터가 사실상 대부분이라고 할 수 있겠다. SDAE와 같은 방법을 통해 사용할 데이터를 정제할 수 있는 모델을 학습한다면 훨씬 더 정밀한 예측을 수행할 수 있을 것이라 생각된다. 일단은 이론으로만 겉핥기 식 공부를 한 상태이니 실제 예제 코드를 돌려보며 적용 가능한 데이터의 범위와 형태를 이해해야겠다.
'공부' 카테고리의 다른 글
마케팅, 추천시스템 (영어 기사 한글 정리) (0) | 2023.03.06 |
---|---|
타닥타닥8: 협업 필터링(Collaborative Filtering, CF) 알고리즘 (0) | 2022.12.05 |
타닥타닥7: 웹로그 분석 (0) | 2022.07.09 |
타닥타닥4: 데이터의 품질 (0) | 2022.03.28 |
타닥타닥2: 추천 알고리즘 정리 (0) | 2022.03.20 |