본문 바로가기

728x90
반응형

전체 글

[Library] Dask? Spark? 캐글을 진행하며 중용량(?) 데이터(약 16GB ~ 40GB)를 처리하게 되었다. 파일 포맷과 데이터 타입, 값 변환 등의 처리만으로는 부족하다 싶어 대용량 데이터 처리를 위한 도구를 모색하게 되었다. 대용량 분석을 위해 spark를 많이 쓰고 pyspark를 제공하지만 로컬 분석 환경에서 사용하기에는 환경 구성에 시간을 들인 만큼의 효율이 나지 않을 수도 있다는 우려가 있었다. 또한 데이터 분석가의 필수 도구인 pandas와 numpy사용에 제약이 있다는 단점이 있다. 그렇게 적절한 도구가 없나 찾아 헤매던 중 dask를 알게 되었고 이를 비교한 포스터가 있어 변역하여 정리하고자 한다. https://medium.com/geekculture/dask-or-spark-a-comparison-for-dat.. 더보기
정규표현식 / 파이썬 예제 (re) 분석 또는 개발을 진행하면서 특정 규칙에 해당하는 문자열을 추출해야 할 경우가 가끔씩 생긴다. 자연어 분석을 메인으로 하지 않는다면 그 빈도가 어쩌다 한 번이다 보니 그때그때 정규 표현식 내용 확인 및 예제를 찾아보는데 시간을 들이게 된다. 그 시간을 줄여보고자 정규표현식과 파이썬에서의 적용에 대해 정리한다. 정규식 문법 Meta 문자 정규 표현식에서 사용되는 기호를 뜻함. 표현식에서 내부적으로 특정 의미를 가지는 문자를 말함. 예약어로 이해 ^x : 문자열의 시작. x문자로 시작됨을 의미 p = re.compile('^@') msg = p.search('@ssesaa.') print(msg.string) @ssesaa. x$ : 문자열의 종료. x문자로 종료됨을 의미 p = re.compile('@$'.. 더보기
[Programmers] 신규 아이디 추천 문제 https://programmers.co.kr/learn/courses/30/lessons/72410 코딩테스트 연습 - 신규 아이디 추천 카카오에 입사한 신입 개발자 네오는 "카카오계정개발팀"에 배치되어, 카카오 서비스에 가입하는 유저들의 아이디를 생성하는 업무를 담당하게 되었습니다. "네오"에게 주어진 첫 업무는 새로 programmers.co.kr 더보기 카카오에 입사한 신입 개발자 네오는 "카카오계정개발팀"에 배치되어, 카카오 서비스에 가입하는 유저들의 아이디를 생성하는 업무를 담당하게 되었습니다. "네오"에게 주어진 첫 업무는 새로 가입하는 유저들이 카카오 아이디 규칙에 맞지 않는 아이디를 입력했을 때, 입력된 아이디와 유사하면서 규칙에 맞는 아이디를 추천해주는 프로그램을 개발하는 것입니다.. 더보기

728x90
반응형