본문 바로가기

분류 전체보기

(52)

[FastText : Enriching Word Vectors with Subword Information] "FastText : Enriching Word Vectors with Subword Information" - Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov (2016) Abstract 기존 skip-gram 단어 표현에 character n-gram 정보를 추가한 subword model을 제시함. Introduction word vectors representation을 학습시키는 방법론을 다룸. word2Vec는 한 단어에 대해 고유한 벡터를 할당 하기 때문에 단어의 형태학적인 특징을 반영할 수 없음. 비슷한 의미를 가지는 두 단어가 서로 다른 벡터를 할당받게 됨을 의미함. 이렇게 같은 의미를 가진 단어들이 서로 다른 벡터를 할당하게..

[알고리즘 코테] 그래프 이론 다양한 그래프 자료구조 그래프와 트리의 차이 그래프 트리 방향성 방향 그래프 또는 무방향 그래프 방향 그래프 순환성 순환 및 비순환 비순환 루트 노드 존재 여부 루트 노드가 없음 루트 노드가 존재 노드 간 관계성 부모나 자식 관계 없음 부모와 자식 관계 있음 모델의 종류 네트워크 모델 계층 모델 트리는 그래프의 일종이나, 순환구조가 없어야 함. 서로소 집합(Union-Find) 공통 원소가 없는 두 집합 Union(a, b) : a가 들어있는 그룹과 b가 들어있는 그룹을 합침. Find(a) : a가 들어있는 그룹의 ID값을 리턴함. -> 노드들이 같은 그룹에 있는지, 그래프에 순환구조가 있는지 판단하는 용도로 사용함. 신장 트리(Spanning Tree) : 최소 연결 부분 그래프 최소 연결이란, 간선..

[Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation] "Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation" - Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio (2014) Abstract RNN encoder-decoder로 불리는 모델을 제안함. 이는 두 개의 RNN으로 구성된 것으로 한 RNN은 가변적인 시퀀스를 고정된 길이의 벡터 표현으로 인코딩하고, 다른 RNN은 그 표현을 다른 시퀀스로 디코딩함. 이 모델은 jointly conditional probability를 최대화..

[ELECTRA : Pre-training Text Encoders as Discriminators Rather Than Generators] "ELECTRA : Pre-training Text Encoders as Discriminators Rather Than Generators" - Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning (2020) Abstract 기존에는 MLM(Masked Langauge Modeling) 방식으로 학습함. 이는 양방향 학습이 가능하지만 전체 토큰 중 15%에 대해서만 학습을 하고, 학습 때는 [Math Processing Error] 토큰을 모델이 참고해 예측하나, 추론 시에는 이 토큰이 존재하지 않는다는 문제를 가지고 있음. 이런 문제를 해결하기 위해 RTD(Replaced Token Detection)이라는 새로운 pre-trainin..

[ELMo : Deep contextualized word representations] "ELMo : Deep contextualized word representations" - Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer (2018) Abstract 이전 임베딩 방식의 경우, 단어의 복잡한 특성, 언어적인 문맥을 고려하지 못하는 single context-independent representation 방식임. → 이러한 문제를 다루는 ELMo라는 문맥을 반영하는 단어 표현을 제시함. 전체 input 문장의 함수로 각 토큰을 배정하는 전통적인 방식과 달리 bi-LSTM으로 만들어진 벡터를 사용함. 따라서 ELMo는 깊고, biLM의 모든 내..

[Recurrent neural network based language model] "Recurrent neural network based language model" - Toma´s Mikolov, Martin Karafiat, Luka´s Burget, Jan “Honza” Cernocky, Sanjeev Khudanpur (2010) Introduction Sequential data prediction은 머신러닝과 인공지능 분야에서 해결해야 하는 문제 중 하나로, 이 중에 parsing tree를 이용하거나 단어의 형태를 분석하는 방법의 통계적 언어 모델으로 주어진 context를 기반으로 다음 단어를 예측함. 기존의 n-gram 기반의 언어 모델에서 발전한 RNN 모델을 제시함. Model input layer x, hidden layer, output layer y로 구성됨..

[알고리즘 코테] 최단경로 최단경로 가장 짧은 경로를 찾는 알고리즘, ‘길 찾기’ 문제에서 해당 개념 사용함. 1. 다익스트라 최단 경로 알고리즘 여러 개의 노드가 있을 때 특정 노드에서 출발하여 다른 노드로 가는 각각의 최단 경로를 구해주는 알고리즘 매번 가장 비용이 적은 노드를 선택하여 반복하는 그리디 알고리즘에 해당함. 각 노드에 대한 현재까지의 최단 거리 정보를 최단거리 테이블(1차원 리스트)에 저장하며 리스트를 계속 갱신함. 원리 ① 출발 노드 설정 ② 최단 거리 테이블 초기화 ③ 방문하지 않은 노드 중에서 최단거리가 가장 짧은 노드 선택 ④ 비용 계산하여 최단 거리 테이블 갱신 ⑤ ③, ④를 반복 1) 간단한 다익스트라 알고리즘 이후에 단계마다 방문하지 않은 노드 중에서 최단 거리가 가장 짧은 노드를 선택하기 위해 매 ..

[알고리즘 코테] 동적 계획법 Dynamic Programming (동적 계획법) 큰 문제를 작은 문제로 나누어 결과를 저장하여 다시 큰 문제를 해결하는 방법 DP를 사용하는 이유 : 일반적인 재귀를 사용하면 작은 문제들이 여러 번 반복되어 비효율적인 계산이 될 수 있기에 이를 해결하려고 사용함. DP 문제를 푸는 방법 탑다운(Top-Down) : 하향식, 큰 문제를 해결하기 위해 작은 문제를 호출하는 방식 바텀업(Bottom-Up) : 상향식, 가장 작은 문제들부터 답을 구해가면서 전체 문제의 답을 찾는 방식으로 재귀 호출을 하지 않기 때문에 시간과 메모리 사용량을 줄일 수 있음. DP를 사용하는 문제 최적 부분 구조 (Optimal Substructure) : 큰 문제를 작은 문제로 나눌 수 있고, 작은 문제의 답을 모아 큰 문제..

이전 1 2 3 4 5 ··· 7 다음

티스토리툴바