Rosette 언어•인코딩 판별 시스템
“Basis Technology의 언어•인코딩 판별 시스템을 도입하여 인터넷 상의 텍스트 데이터의 언어를 명확히 판별함으로써 가장 적절한 자연어 처리를 할 수 있게 되어 검색의 효율과 정밀도 향상에 큰 도움이 되고 있습니다. 또 방대한 양의 텍스트 데이터도 순식간에 처리할 수 있는 처리 속도, 높은 언어 판별 정밀도 등 이 제품의 성능에 대단히 만족하고 있습니다.”
— NTT레조넌트, 포털사업본부
기술마케팅부 담당부장
다케노 히로시
|
[제품 도입 효과] 글자 깨짐이 없도록 인코딩을 정확히 판별 |
인터넷의 광범위한 보급에 따라 세계 각국에서 생산되는 웹 페이지가 기하급수적으로 증가하고 인터넷에서 정보를 수집하고 이용하는 사용자 또한 급속히 늘어나고 있습니다. 한편 웹 페이지 정보의 글자가 깨져서 표시되는 곤란한 사례도 빈번하게 일어납니다. 이는 웹 페이지에서 사용된 인코딩(*주1)이 사용자가 사용하는 브라우저에서 올바르게 인식되지 않는 경우에 발생합니다.
Rosette® 언어•인코딩 판별 시스템은 언어와 인코딩을 신속하고 정확하게 판별합니다. 이에 따라 인코딩을 알 수 없기 때문에 데이터 처리 실패로 글자 깨짐이 일어나는 현상을 방지합니다. 또 데이터를 언어별로 구분할 수 있기 때문에 그 이후의 언어별 처리도 효율적으로 할 수 있습니다.
Rosette® 언어•인코딩 판별 시스템은 세계 주요 54개 언어 및 45종류의 인코딩(*주2)을 판별할 수 있습니다. (자세한 내용은 지원 언어 및 인코딩을 참조하십시오.) 판별 정밀도는 평균 99.45%(*주3)로 높은 정밀도를 자랑합니다. 이는 학술적인 샘플 데이터 뿐만 아니라 실제로 존재하는 많은 웹 데이터를 이용해 오랜 세월에 걸쳐 연구•개량을 거듭해 온 성과입니다.
Rosette® 언어•인코딩 판별 시스템은 사전 데이터를 필요로 하지 않고 언어•인코딩마다 미리 프로그래밍된 프로필과 입력 텍스트를 비교해 판별하는 통계학적인 기법을 사용하고 있습니다. 따라서 메모리 소비가 적고 많은 종류의 언어•인코딩을 신속히 판별할 수 있습니다. 또한 중국어를 지원하는 데 필수적인 GB18030의 검출이 가능해졌습니다.
주1:인코딩이란 컴퓨터에서 문자를 다루기 위해 특정 문자 집합을 정해 각 문자에 하나의 수치를 할당한 것입니다. 한국어 텍스트에는 EUC-KR, ISO-2022-KR 등의 인코딩이 사용됩니다. 같은 문자라도 인코딩에 따라 할당되어 있는 수치가 다르기 때문에 이에 따라 처리하지 않으면 글자 깨짐 현상이 일어납니다.
*주2:중국어의 간체자•번체자는 각기 다른 두 언어로 간주합니다.
*주3: 1KB의 데이터를 사용한 계측 결과.
(고객사의 희망에 따라 한정 언어•인코딩 지원판도 준비해 드릴 수 있습니다.)
