Javascript의 Uint8Array 요소 범위에있는 UTF-8 인코딩 데이터가 있습니다. 이것을 일반 자바 스크립트 문자열로 디코딩하는 효율적인 방법이 있습니까 (Javascript가 16 비트 유니 코드를 사용한다고 생각합니다)? 문자열 결합이 CPU를 많이 사용하므로 한 번에 한 문자를 추가하고 싶지 않습니다.
답변
TextEncoder
및 TextDecoder
로부터 인코딩 표준 에 의해 polyfilled된다 stringencoding 라이브러리 현과 ArrayBuffers간에 변환 :
var uint8array = new TextEncoder("utf-8").encode("¢");
var string = new TextDecoder("utf-8").decode(uint8array);
답변
이것은 작동합니다.
// http://www.onicos.com/staff/iz/amuse/javascript/expert/utf.txt
/* utf.js - UTF-8 <=> UTF-16 convertion
*
* Copyright (C) 1999 Masanao Izumo <iz@onicos.co.jp>
* Version: 1.0
* LastModified: Dec 25 1999
* This library is free. You can redistribute it and/or modify it.
*/
function Utf8ArrayToStr(array) {
var out, i, len, c;
var char2, char3;
out = "";
len = array.length;
i = 0;
while(i < len) {
c = array[i++];
switch(c >> 4)
{
case 0: case 1: case 2: case 3: case 4: case 5: case 6: case 7:
// 0xxxxxxx
out += String.fromCharCode(c);
break;
case 12: case 13:
// 110x xxxx 10xx xxxx
char2 = array[i++];
out += String.fromCharCode(((c & 0x1F) << 6) | (char2 & 0x3F));
break;
case 14:
// 1110 xxxx 10xx xxxx 10xx xxxx
char2 = array[i++];
char3 = array[i++];
out += String.fromCharCode(((c & 0x0F) << 12) |
((char2 & 0x3F) << 6) |
((char3 & 0x3F) << 0));
break;
}
}
return out;
}
해킹을 사용하지 않고 브라우저 JS 기능에 의존하지 않기 때문에 다른 솔루션보다 다소 깨끗합니다. 예를 들어 다른 JS 환경에서도 작동합니다.
JSFiddle 데모를 확인하십시오 .
답변
내가 사용하는 것은 다음과 같습니다.
var str = String.fromCharCode.apply(null, uint8Arr);
답변
Chrome 샘플 애플리케이션 중 하나에서 찾을 수 있지만 이는 비동기 변환에 문제가없는 더 큰 데이터 블록을위한 것입니다.
/**
* Converts an array buffer to a string
*
* @private
* @param {ArrayBuffer} buf The buffer to convert
* @param {Function} callback The function to call when conversion is complete
*/
function _arrayBufferToString(buf, callback) {
var bb = new Blob([new Uint8Array(buf)]);
var f = new FileReader();
f.onload = function(e) {
callback(e.target.result);
};
f.readAsText(bb);
}
답변
노드에서 ” Buffer
인스턴스도 Uint8Array
인스턴스 ” buf.toString()
이므로이 경우에 작동합니다.
답변
Albert가 제공 한 솔루션은 제공된 함수가 자주 호출되지 않고 적당한 크기의 배열에만 사용되는 한 잘 작동합니다. 그렇지 않으면 매우 비효율적입니다. 다음은 Node와 브라우저 모두에서 작동하며 다음과 같은 장점이있는 향상된 바닐라 JavaScript 솔루션입니다.
• 모든 옥텟 배열 크기에 대해 효율적으로 작동
• 중간에 던져 버리는 문자열을 생성하지 않습니다.
• 최신 JS 엔진에서 4 바이트 문자 지원 (그렇지 않으면 “?”로 대체 됨)
var utf8ArrayToStr = (function () {
var charCache = new Array(128); // Preallocate the cache for the common single byte chars
var charFromCodePt = String.fromCodePoint || String.fromCharCode;
var result = [];
return function (array) {
var codePt, byte1;
var buffLen = array.length;
result.length = 0;
for (var i = 0; i < buffLen;) {
byte1 = array[i++];
if (byte1 <= 0x7F) {
codePt = byte1;
} else if (byte1 <= 0xDF) {
codePt = ((byte1 & 0x1F) << 6) | (array[i++] & 0x3F);
} else if (byte1 <= 0xEF) {
codePt = ((byte1 & 0x0F) << 12) | ((array[i++] & 0x3F) << 6) | (array[i++] & 0x3F);
} else if (String.fromCodePoint) {
codePt = ((byte1 & 0x07) << 18) | ((array[i++] & 0x3F) << 12) | ((array[i++] & 0x3F) << 6) | (array[i++] & 0x3F);
} else {
codePt = 63; // Cannot convert four byte code points, so use "?" instead
i += 3;
}
result.push(charCache[codePt] || (charCache[codePt] = charFromCodePt(codePt)));
}
return result.join('');
};
})();
답변
@Sudhir가 말한 것을 한 다음 쉼표로 구분 된 숫자 목록에서 문자열을 얻으려면 다음을 사용하십시오.
for (var i=0; i<unitArr.byteLength; i++) {
myString += String.fromCharCode(unitArr[i])
}
여전히 관련이있는 경우 원하는 문자열을 제공합니다.