전체 글
#codex
#obsidian
#jekyll
#writing
저는 글 쓰는 것을 좋아합니다. 정확히 말하면, 주기적으로 글을 쓰지 않으면 안 되는 정도입니다. 주로 일기를 쓰면서 생각을 정리하고, 기술적으로 새로 배운 내용은 따로 노트에 적어두곤 했습니다. 그래서 늘 블로그를 만들어서 글을 조금 더 체계적으로 관리해야겠다고...
더 읽기 →
#figma
#design-system
웹이나 앱 개발을 하면서 가장 어렵게 느껴지는 부분이 무엇이냐고 묻는다면, 저는 가장 먼저 디자인을 떠올립니다. 예전 같았다면 “디자인보다는 기능이 더 중요하지 않나?”라고 생각했을지도 모르겠습니다. 하지만 실제로 사용자들의 눈길을 먼저 끄는 것은 대개 “잘 만든...
더 읽기 →
#aws
#text2sql
#ontology
#cdk
AI와 함께하는 개발이 AWS와 결합했을 때 어떤 시너지를 만들 수 있는지, 여러 기업과 세션 사례를 통해 확인할 수 있었습니다. 이번 글에서는 제가 들었던 세션에서 인상 깊었던 내용과 함께, 세션 중 언급된 주요 용어와 개념을 정리해보려고 합니다. 현장에서 간략...
더 읽기 →
#spark
#scheduling
#data-locality
#streaming
『스파크를 다루는 기술』 정리 세 번째 글입니다. 이번 글에서는 Spark 애플리케이션을 구성하는 런타임 컴포넌트와 스케줄링 방식을 정리하고, 마지막으로 실시간 대시보드 예제를 살펴봅니다. 앞선 글에서 RDD, 파티셔닝, 셔플링을 다뤘다면, 이번 글은 실제 클러스...
더 읽기 →
#spark
#partitioning
#shuffle
#rdd
『스파크를 다루는 기술』 정리 두 번째 글입니다. 첫 번째 글에서 Spark의 기본 실행 흐름과 RDD를 살펴봤다면, 이번 글에서는 성능에 직접적인 영향을 주는 파티셔닝과 셔플링을 정리합니다. Spark에서 파티션이 어떻게 나뉘고, 언제 데이터 이동이 발생하는지 ...
더 읽기 →
#spark
#hadoop
#mapreduce
#rdd
페타 제체비치, 마르코 보나치의 『스파크를 다루는 기술』을 읽으며 정리한 내용을 세 편으로 나누어 기록해보려고 합니다. 첫 번째 글에서는 Spark를 이해하기 위한 배경으로 MapReduce와 Hadoop을 먼저 살펴보고, Spark의 기본 실행 흐름과 RDD 개...
더 읽기 →
#search-algorithm
#learning-to-rank
#information-retrieval
웹에는 수많은 문서가 있고, 우리는 이제 세상에 존재하는 거의 모든 정보를 검색할 수 있게 되었습니다. 그래서 더 중요해진 질문은 “그 많은 정보 중에서 내가 원하는 정보를 어떻게 찾을 것인가”입니다. 단순하게 생각하면, 내가 검색한 플라톤이라는 키워드를 포함하는...
더 읽기 →
#tf-idf
#bm25
#word2vec
#rnn
#transformer
자연어 처리(NLP)는 텍스트를 숫자로 표현하고, 그 숫자 사이의 관계를 학습해 의미 있는 결과를 만드는 분야입니다. 이 글에서는 TF-IDF와 BM25 같은 전통적인 검색 기법부터 Word2Vec, RNN, Attention, Transformer까지 큰 흐름을...
더 읽기 →
#paper-review
#self-attention
#speaker-recognition
이 글은 논문 Self-attention encoding and pooling for speaker recognition을 바탕으로 작성한 리뷰입니다. 개요 발성 데이터에서 모든 프레임이 똑같이 중요한 것은 아닙니다. 어떤 프레임은 화자를 구분하는 데 더 큰 정보...
더 읽기 →