https://stackoverflow.com/questions/28240706/explain-the-aggregate-functionality-in-spark-with-python-and-scala Explain the aggregate functionality in Spark (with Python and Scala) I am looking for some better explanation of the aggregate functionality that is available via spark in python. The example I have is as follows (using pyspark from Spark 1.2.0 version) sc.paral... stackoverflow.com ht..
04. 부속 프로세싱 - 이미지 처리 기술과 검색 기술의 융합 intro 검색 엔진, 그리고 정보처리엔진 이런 것에는 문자나 텍스트만으로 국한될 필요는 없다. 실제로 우리가 디지털화할 수 있는 모든 데이터 , 즉 이미지 데이터 , 비디오, 동영상, 3D 이미지, 그리고 속성들 그리고 들릴 수 있는 소리, 가상현실 등등 여러가지 데이터들의 의미를 처리할 수 있다. 검색 엔진은 문자뿐만아니라 이미지 등 여러가지 있는 뜻을 추출해 우리가 색인할 수 있고, 그런 색인된 정보를 추출해줄 수 있는 정보를 볼 수 있다. 우리가 이 섹션에서는 이미지 검색을 예로 들지만, 이것을 통래 우리는 문자뿐만 아니라, 여러가지 부속적인 다른 방식의 데이터들도 색인이 가능하고, 이것을 통해 우리가 검색 기술을 확장할 수 있다. 핀..
03. 지식 그래프(knowledge graph)를 활용해 검색 품질 향상하기 위키피디아 같은 지식 그래프를 이용해 키워드를 확장시켜봅시다. 지식 그래프란 SQL 과 달리, 지식을 그래프 형식으로 표현하여 새로운 정보의 추론과 여러가지 속성을 확장할 수 있는 새로운 종류의 그래프데이터베이스이다. 여기서 보시다싶이 여러가지 엔티티, 즉 아이디어 , 그리고 그 컨셉들의 릴레이션쉽을 이렇게 그래프로 나타내주는 지식 그래프라는 컨셉이다. 단순, SQL 로 이 관계들을 표현하려면 많은 테이블들, 그리고 무궁무진한 제한이 필요하겠지만, 이런 지식 그래프를 통해서 이런 엔티티를 하나하나 정리해주고, 이 엔티티 사이에 릴레이션을 정의해줌으로써, 매우 효과적인 데이터 스토어, 그리고 매우 impactful 한 infer..
N-gram은 문자열에서 N개의 연속된 요소를 추출하는 방법입니다. 만약 'Hello'라는 문자열을 문자(글자) 단위 2-gram으로 추출하면 다음과 같이 됩니다. He el ll lo 즉, 문자열의 처음부터 문자열 끝까지 한 글자씩 이동하면서 2글자를 추출합니다. 3-gram은 3글자, 4-gram은 4글자를 추출하겠죠? 출처 : https://dojang.io/mod/page/view.php?id=2332 출처: https://wikidocs.net/21692 2. N-gram 이 때 임의의 개수를 정하기 위한 기준을 위해 사용하는 것이 n-gram입니다. n-gram은 n개의 연속적인 단어 나열을 의미합니다. 갖고 있는 코퍼스에서 n개의 단어 뭉치 단위로 끊어서 이를 하나의 토큰으로 간주합니다. 예..
Part1. 검색엔진 기술의 개요 01-01. 강의 개요 검색 엔진 기술의 개요 엘라스틱 서치를 사용해 간단한 쇼핑몰 검색 기능 만들기(실습 위주) 지식 그래프의 개요(실습 포함) 이미지 처리를 활용해 검색 결과를 향상시키기(실습위주) 검색랭킹(실습 포함) : 방대한 빅 데이터에서 검색 결과를 돌려줄 때, 어떠한 결과가 더 연관성(relevance)한지, 더 먼저 나와야하는지 , 사용자의 주의를 끄는 것(attention)이 더 필요한 것인지 이것을 찾아 주는 것이 검색 랭킹이다. 또한, relevance 라고 부르기도 한다. 검색 기술에 대한 기본 지식 검색엔진 중급 클래스인 엘라스틱서치를 활용해 고급 검색 엔진 만들기 강의 이 강의를 통해 검색 엔진 기술이 무엇인지, 그리고 검색엔진들은 어떤 아키텍처..
보호되어 있는 글입니다.
F.lower(F.col("column"))==F.upper(F.col("column")) 같은지 확인
간단 요약 서버와 애플리케이션 사이 파이썬 웹 서버 게이트웨이 인터페이스 용어 정리 웹 서버 게이트웨이 인터페이스(WSGI, Web Server Gateway Interface)는 웹서버와 웹 애플리케이션의 인터페이스를 위한 파이썬 프레임워크다. WSGI는 처음에 2003년 PEP-333으로 규정되었다. 2010년에 출판된 PEP-3333은 파이썬 3을 위한 사양을 갱신한다. WSGI(Web Server Gateway Interface)는 웹 서버 소프트웨어와 파이썬으로 작성된 웹 응용 프로그램 간의 표준 인터페이스입니다. 표준 인터페이스는 여러 웹 서버에서 WSGI를 지원하는 응용 프로그램을 쉽게 사용할 수 있도록 합니다.개요 환경변수가 바뀌면 타겟 URL에 따라서 리퀘스트의 경로를 지정해준다. 같은 ..
데이터 소스 데이터 웨어하우스 측면세어 업무 시스템을 위한 RDB 나 로그 등을 저장하는 파일 서버 데이터 소스의 로우 데이터 (원시 데이터) 를 추출, 포맷팅을 위한 가공 후 데이터 웨어하우스에 저장하기 까지를 ETL 프로세스라한다. 데이터 웨어하우스 웹서버나 업무 시스템에서 이용되는 일반적인 RDB와는 달리, "대량의 데이터를 장기 보존" 하는 것에 최적화되어있다. 데이터 레이크 (데이터 웨어하우스와 치환될 수 있다.) 데이터를 축적하는 호수에 비유되는 "데이터 축적 장소" 모든 데이터를 원래의 형태로 축적하고, 그것을 필요에 따라 가공하는 구조 장점: 정리된 데이터를 한 번에 전송하는 것에 뛰어나다. 단점: 소량의 데이터를 자주 읽고 쓰는데 적합하지 않다. 업무에 있어 중요한 데이터 처리에 사용되기..