Home

[Deep Learning] Attention

Attention Attention 방법론의 논문과 코드를 살펴보던 와중에, animation으로 너무 잘 설명된 포스팅이 있어서 한글로 번역합니다. 하지만 해당 포스팅에는 논문 수식들이 모두 빠져있는 점이 아쉬운데, 논문 원문에 포함 돼 있던 수식을 포함시켜 내용을 조금 더 풍성하게 만들었습니다. Attention 방법론은 RNN, LSTM 또는 seq2seq 이후에 나온 논문으로, time series, sequential data 들에서 더욱 좋은 성능을 보여줍니다. 대부분의 RNN 계열 알고리즘들이 과거 데이터들을 잘 반영하지 못한다는 취약점을 안고 있는데, 이러한 점을 보완하기 위해 연구 됐습니다. ...

Read more

[Spark Feature] Spark Architecture Explained

Spark 스파크는 빅데이터 처리에서 대세로 자리잡은 클러스터 컴퓨팅 프레임 워크입니다. 스파크는 하둡과 비교했을 때, in memory 에서는 100배 이상, on disk 에 비해서는 10배 까지 빠른 데이터 처리 속도를 보여줍니다. 이러한 장점을 지닌 스파크의 전체적인 아키텍쳐에 대해서 알아봅시다. Spark & its Features 스파크의 주된 특징은 in-memory cluster computing 인데, 이는 프로세스 속도를 증가시킵니다. 전체 클러스터들에 대하여, implicit data parallelism and fault tolerance 에 대한 프로그래밍 작성을 위해 인터페이스를...

Read more

[추천시스템] Improving complementary-product recommendations

Complementary-product recommendations amazon Science 블로그에 2020년 10월 7일에 업로드 된 글입니다. 보충재 상품을 추천하는 알고리즘 개발에 있어서 평균 정확도를 7% 증가시킨 접근법이라고 소개 돼있습니다. 다양한 추천 알고리즘들 중에 보충재 상품을 발굴하고 추천하는 방법론들에 대한 연구나 문서들은 상대적으로 그 양이 많지 않습니다. 보충재 상품 추천에 참고할 만한 글을 찾다가, 직접 찾은 글은 아니지만, 읽어볼만한 글이라고 소개받아서 간략하게 포스팅으로 정리합니다. Intro complementary-product recommendation (CPR) 에 7% ...

Read more

[추천시스템] BPR : Bayesian Personalized Ranking from Implicit Feedback

Personalization & Ranking FM에 이은 RENDEL 교수님의 또 다른 논문 BPR을 살펴보겠습니다. 추천시스템에서 많이 사용되는 MF나 kNN 모두 유저 단위에서 추천을 진행할 수는 있습니다. (즉, 개인화를 추천에 포함시킵니다.) MF(Matrix Factorization)의 경우, 방법론 이름 그대로 행렬을 분해하는 과정에서, 유저들 간의 관계를 latent factor가 내포할 수 있습니다. 또한, 분해 결과 자체에서도 $U ^{ U \times k }$ 형태의 $\text{user by factors}$ 행렬을...

Read more

[추천시스템] Factorization Machine

Factorization + Machine ..? Factorizaion Machine (이하 FM) 논문은 2010년 Steffen Rendle 교수님의 IEEE conference 논문에서 발표됐습니다. 현재까지 추천시스템에서 큰 영향을 끼치고 있는 연구이며, FM의 핵심개념은 Deep Learning과 결합해, 추후에 DeepFM, xDeepFM 등의 연구로도 발전했습니다. Rendle 교수님의 또다른 역작으로는 Bayesian Personalized Learning(BPR) 논문이 있으며, FM과 BPR 모두 간단해 보이는 아이디어를 획기적인 방법으로 적용한다는 공통점이 있습니다. 또한, 두 아이디어 모두...

Read more

[선형대수학] Generalized Eigenvector (1)

Generalized Eigenvalues and Eigenvector 말그대로 조금 더 일반적인 형태의 eigenvalues, eigenvectors 에 대해서 알아보겠습니다. 해당 형태는 Reyleigh Ratio 값과 비슷한 형태를 보여주므로, Reyleigh Ratio에 대한 리뷰를 먼저 시작해보겠습니다. Reyleigh Ratio Reyleigh Ratio는 다음과 같은 형태를 보여줍니다. SVD에서 first, second laregest singular value, 그에 대한 기하학적 해석에서 한 번 다룬적이 있습니다. \[R(x) = \frac{x^TSx}{x^Tx}\] left singula...

Read more

[논문리뷰] ITEM2VEC: Neural Item Embedding for Collaborative Filtering

ITEM2VEC: Neural Item Embedding for Collaborative Filtering ABSTRACT 기존의 CF 알고리즘들은 아이템간의 유사성을 만들어내기 위해, 아이템들 간의 관계를 분석하는 데에 기초를 두고 있었다. Skip-gram with Negative Sampling(SGNS), 더욱 친숙하게는 word2vec 으로 알려진 알고리즘은 많은 NLP 분야에서 neural embedding 알고리즘을 활용해 단어들의 latent representation 학습에 효과적임을 보여주었다. 이 논문에서는 item based CF가 neural embedding 알고리즘과 같은 프레임워크 내에...

Read more

[추천시스템] 논문리뷰 - xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems

Abstract Combinatorial features (상호작용 특성)들은 많은 추천 시스템에서 중요한 역할을 해오고 있다. 상호작용 특성들은 모델에서 좋은 역할을 함에도 불구하고, web-scale system 에서 raw data 의 변동성, 크기, 속도 때문에 계산에 있어서 높은 비용을 수반하는 편이다. FM이나 DeepFM과 같은 Factorization 기반 모델들은 벡터의 내적 term으로 상호작용을 측정하며 이는 자동으로 상호작용 특성들의 패턴을 학습할 수 있게 하고, 보이지 않는 특성들에 대한 일반화 또한 가능하게 한다. 이 논문은 Compressed Interaction Network(CIN)...

Read more