일기
$\ $하루 정도는 블로그에 일기를 쓰자. 우선 생각을 정리할 필요가 있다.
요즘
$ $ 블로그를 시작한지 얼마 안됐지만, 요즘 들어 포스팅 빈도가 눈에 띄게 줄었다. 사실 이전에 1일 1포스팅은 말도 안되는 목표였을 수도 있다. 3일 1포스팅 정도가 적당할 것 같다. 최근에 공부를 게을리 했던 것은 아니고, 공부에 투자하는 시간은 늘었으나 조금 더 다양한 주제에 대해 동시다발적으로 공부를 하다보니 완성해서 업로드하는 포스팅 수가 적어졌다. 더욱 많은 것을 공부해야한다. 특히 추천시스템 쪽 공부를 시작하면서 막대한 정보를 받아들이고 있다. 선형대수학, 베이지안 추론, 알고리즘, 딥러닝 등등 받아들여야 할 것들이 많다. 가장 큰 문제는 문서와 책들을 읽고 적고 정리, 이해 후 내 것으로 만든 것은 분히 컴퓨터로 구현하고 넘어가야 한다. 이게 엄청 스트레스다. 휴 분명 매일매일 적고는 있으나, 지금 이것을 다 정리할 시간이 없다. (핑계임)
아침 한 5시에 일어나면 가능할지도.
딥러닝
$\ $결국 딥러닝을 시작했다. Keras로 간단한 뉴럴넷 구현해본 것이 다였고 뭔가 항상 거리를 두고싶었던 딥러닝인데 지금 바로 시작하지 않으면 안되는 일이 생겼다. 머신러닝의 기본적인 알고리즘들에 대한 수학적 배경 이해와 알고리즘 기본 구현까지 완성하고 딥러닝으로 넘어가고 싶었다. 이러한 말도 안되는 꿈과 야망이 있었으나, 지금이라도 현실에 타협해야 할 때가 왔다.
타협이라기보다는 적절한 시기에 딥러닝으로 시야를 확장하는 계기가 됐으면 한다.
$\ $딥러닝에 대해 사실 난 거의 백지 상태이다. 단지 단순한 선형적 함수를 수없이 반복시켜 합성시킨다는 것. 인간이 해석이 불가능할 정도로 많은 수의 함수를 합성시켜서 과정을 완전히 이해할 수는 없지만(Black Box), 지금까지 해결 못 했던 많은 분야에서 활약하고 있다는 점. 선형적 한계를 극복하기 위해 비선형적 activation function을 가미한다는 것. CNN 이 어디에 좋고, RNN은 어떻고, AEN 를 MF적 측면에서 바라볼 수 있고…. 이게 전부였다. 하지만 데이터 사이언스 분야에서 시간이 갈수록, 꼭 이미지나 음성 데이터를 다루는 일이 아니더라도, 딥러닝을 잘 활용할수록 대부분의 모델링에서 더 좋은 분석 결과를 낼 수 있다는 것을 깨닫고 있다. 그리고 솔직히 Feature engineering이 머신러닝 분야에서, 특히, 대회같은 곳에선 가장 크리티컬한 부분인데 딥러닝을 통해 feature engineering에서 자유로운 모델을 생성하고 더 나은 결과를 낼 수 있다는 점을 깨닫고 나면, 이러한 점을 일찍이 몰랐던 내가 한없이 초라해진다. 솔직히 그동안 나까짓게 딥러닝을 너무 얕봤다는 생각을 하며 반성중이다. 딥러닝아 잘해보자(토닥토닥)
DS industry
$\ $이 분야에 발을 딛은 지 고작 2년 정도 된 것 같다. 대학교 1학년 때 프로그래밍 언어 강의에서 (훌륭하신 강사님 덕에 ; 핑계임) 박살난 후로, 그동안 외면하던 컴퓨터 프로그래밍을 DS에 빠지면서 만지작만지작 한게 고작 2년 반 전이다. 이쪽에서 일을 할 수 있을거라 생각 안했는데, 정말 운좋게도 일을 하게 됐고 일에 책임감과 열정을 느끼며 하고 있다. 지금까진 좋다. 하지만 사람 욕심이 끝이 없어서, 여기에서 일을 한다는 자체에 만족하지 못하고, 이 분야의 미래와 나의 미래에 대해 계속 의구심을 또 품게 되더라.
근본적으로는 나의 실력에 대한 의구심이다.
$\ $만약 지금 내가 여전히 학교에 있었으면 현재 상황에 엄청 회의감을 느끼고 지금 친구들 불러 술마시고 엎어졌을 것 같다. 하지만, 정말 감사히도, 지금 주변에 너무 실력있는 분들이 너무 많다. Data Scientist에게 요구되는 덕목들과 스킬셋들이 너무나도 많은데, 주변의 선배 동료들은 이 많은 덕목들을 두루 갖추고 훌륭한 인싸이트와 창의력을 갖고 계신다. 더 실력있는 (연봉높은) Data scientist 가 되기 위해서 대부분의 이 분야 사람들이 공부하고 몰두하는 것은 최신의 알고리즘들, 삐까뻔쩍 딥러닝, 압도적인 시각화 등일 것이다. 특히, 적어도 나는 그렇게 지금까지 생각해왔고 앞으로 가야할 방향도 그렇다고 생각했다. 하지만 여기와서 생각이 많이 바뀌었다. 딥러닝이 feature engineering으로부터의 해방을 완전히 가능케하는 그런 단순한 상황이 실제 현업의 데이터 환경에서 많지 않다. 오히려 우리가 떠받치고 세상의 모든 것을 해결할 것처럼 보이는 딥러닝에서 한 발자국 물러서서, 다른 방향으로 수학적으로 문제를 해결하려고 보면, 생각보다 좋은 결과들을 내는 것을 실제로 이곳에서 많이 관찰하고 있다. 이런 것은 어떤 곳에 가도 쉽게 얻을 수 없는 값진 경험이라고 생각한다. 또한, 앞으로 데이터 사이언티스트들이 추구해야 할 방향 중 하나라고 생각한다. $\ $ 정리하자면….,대부분 우리가 데이터로 풀어야할 상황들은 우리의 수학적 창의력과 상황에 대한 이해, 알고리즘적 사고가 필요하다는 걸 느낀다. 딥러닝도 물론 중요하지만 딥러닝을 최종 목표로 생각할 것이 아니라, 딥러닝을 활용해 현재 우리가 맞닥뜨린 상황을 더욱 창의적으로 해결해보도록 하면 더욱 즐겁게 탐구할 수 있을 것이다. 앞으로 더 재밌는 날의 연속이길! — 2020 1st [요즈]음 끝!