iadded library to deal with text (libtext) - iomenu - interactive terminal-based selection menu Err bitreich.org 70 hgit clone git://bitreich.org/iomenu git://enlrupgkhuxnvlhsf6lc3fziv5h2hhfrinws65d7roiv6bfj7d652fid.onion/iomenu URL:git://bitreich.org/iomenu git://enlrupgkhuxnvlhsf6lc3fziv5h2hhfrinws65d7roiv6bfj7d652fid.onion/iomenu bitreich.org 70 1Log /scm/iomenu/log.gph bitreich.org 70 1Files /scm/iomenu/files.gph bitreich.org 70 1Refs /scm/iomenu/refs.gph bitreich.org 70 1Tags /scm/iomenu/tag bitreich.org 70 1README /scm/iomenu/file/README.gph bitreich.org 70 1LICENSE /scm/iomenu/file/LICENSE.gph bitreich.org 70 i--- Err bitreich.org 70 1commit 61b9b7eeca080291752b9813705c17208e83505a /scm/iomenu/commit/61b9b7eeca080291752b9813705c17208e83505a.gph bitreich.org 70 1parent 5fa48204850bed279e339eb370d2d595e297c274 /scm/iomenu/commit/5fa48204850bed279e339eb370d2d595e297c274.gph bitreich.org 70 hAuthor: Josuah Demangeonā  ā µ URL:mailto:mail@josuah.net bitreich.org 70 iDate: Sun, 2 Apr 2017 01:29:06 +0200 Err bitreich.org 70 i Err bitreich.org 70 iadded library to deal with text (libtext) Err bitreich.org 70 i Err bitreich.org 70 iDiffstat: Err bitreich.org 70 i A text.c | 255 +++++++++++++++++++++++++++++++ Err bitreich.org 70 i A text.h | 6 ++++++ Err bitreich.org 70 i Err bitreich.org 70 i2 files changed, 261 insertions(+), 0 deletions(-) Err bitreich.org 70 i--- Err bitreich.org 70 1diff --git a/text.c b/text.c /scm/iomenu/file/text.c.gph bitreich.org 70 i@@ -0,0 +1,255 @@ Err bitreich.org 70 i+/* Err bitreich.org 70 i+ * Functions handling UTF-8 srings: Err bitreich.org 70 i+ * Err bitreich.org 70 i+ * stdin -> buffer -> stdout Err bitreich.org 70 i+ * char[] -> long[] -> char[] Err bitreich.org 70 i+ * UTF-8 -> rune -> UTF-8 Err bitreich.org 70 i+ */ Err bitreich.org 70 i+ Err bitreich.org 70 i+ Err bitreich.org 70 i+#include Err bitreich.org 70 i+#include Err bitreich.org 70 i+#include Err bitreich.org 70 i+ Err bitreich.org 70 i+#include "text.h" Err bitreich.org 70 i+ Err bitreich.org 70 i+ Err bitreich.org 70 i+/* Err bitreich.org 70 i+ * Return the number of bytes in rune for the `len` next char in `s`, Err bitreich.org 70 i+ * or 0 if `utf` is misencoded. Err bitreich.org 70 i+ * Err bitreich.org 70 i+ * Thanks to Connor Lane Smith for some ideas. Err bitreich.org 70 i+ */ Err bitreich.org 70 i+int Err bitreich.org 70 i+utflen(char *s, int n) { Err bitreich.org 70 i+ int len = 1; Err bitreich.org 70 i+ int contiunation_bytes = Err bitreich.org 70 i+ (s[0] & 0x80) == 0x00 ? 0 : /* 0xxxxxxx */ Err bitreich.org 70 i+ (s[0] & 0xc0) == 0x80 ? 1 : /* 10xxxxxx */ Err bitreich.org 70 i+ (s[0] & 0xe0) == 0xc0 ? 2 : /* 110xxxxx */ Err bitreich.org 70 i+ (s[0] & 0xf0) == 0xe0 ? 3 : /* 1110xxxx */ Err bitreich.org 70 i+ (s[0] & 0xf8) == 0xf0 ? 4 : /* 11110xxx */ Err bitreich.org 70 i+ (s[0] & 0xfc) == 0xf8 ? 5 : /* 111110xx */ Err bitreich.org 70 i+ (s[0] & 0xfe) == 0xfc ? 6 : /* 1111110x */ Err bitreich.org 70 i+ (s[0] & 0xff) == 0xfe ? 7 : /* 11111110 */ Err bitreich.org 70 i+ 8; /* 11111111 */ Err bitreich.org 70 i+ Err bitreich.org 70 i+ if (contiunation_bytes > 6 || contiunation_bytes > n) Err bitreich.org 70 i+ return 0; Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* check if continuation bytes are 10xxxxxx and increment `len` */ Err bitreich.org 70 i+ switch (contiunation_bytes) { /* FALLTHROUGH */ Err bitreich.org 70 i+ case 6: if ((s[5] & 0xc0) != 0x80) return 0; else len++; Err bitreich.org 70 i+ case 5: if ((s[4] & 0xc0) != 0x80) return 0; else len++; Err bitreich.org 70 i+ case 4: if ((s[3] & 0xc0) != 0x80) return 0; else len++; Err bitreich.org 70 i+ case 3: if ((s[2] & 0xc0) != 0x80) return 0; else len++; Err bitreich.org 70 i+ case 2: if ((s[1] & 0xc0) != 0x80) return 0; else len++; Err bitreich.org 70 i+ case 0: return len; Err bitreich.org 70 i+ default: return 0; Err bitreich.org 70 i+ } Err bitreich.org 70 i+} Err bitreich.org 70 i+ Err bitreich.org 70 i+ Err bitreich.org 70 i+/* Err bitreich.org 70 i+ * return the number of bytes required to display `rune` Err bitreich.org 70 i+ */ Err bitreich.org 70 i+int Err bitreich.org 70 i+runelen(long r) { Err bitreich.org 70 i+ if (r <= 0x0000007f) return 1; Err bitreich.org 70 i+ if (r <= 0x000007ff) return 2; Err bitreich.org 70 i+ if (r <= 0x0000ffff) return 3; Err bitreich.org 70 i+ if (r <= 0x001fffff) return 4; Err bitreich.org 70 i+ if (r <= 0x03ffffff) return 5; Err bitreich.org 70 i+ if (r <= 0x7fffffff) return 6; Err bitreich.org 70 i+ return 0; Err bitreich.org 70 i+} Err bitreich.org 70 i+ Err bitreich.org 70 i+ Err bitreich.org 70 i+/* Err bitreich.org 70 i+ * return the firsts `len` bytes in the sring poined by `utf` to a rune. Err bitreich.org 70 i+ * if the `utf` is misencoded, the first char is returned as a Err bitreich.org 70 i+ * negative value. Err bitreich.org 70 i+ */ Err bitreich.org 70 i+int Err bitreich.org 70 i+utftorune(long *r, char *s, int n) { Err bitreich.org 70 i+ int len = utflen(s, n); Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* first byte */ Err bitreich.org 70 i+ switch (len) { Err bitreich.org 70 i+ case 1: *r = s[0]; return 1; /* 0xxxxxxx */ Err bitreich.org 70 i+ case 2: *r = s[0] & 0x1f; break; /* 110xxxxx */ Err bitreich.org 70 i+ case 3: *r = s[0] & 0x0f; break; /* 1110xxxx */ Err bitreich.org 70 i+ case 4: *r = s[0] & 0x07; break; /* 11110xxx */ Err bitreich.org 70 i+ case 5: *r = s[0] & 0x03; break; /* 111110xx */ Err bitreich.org 70 i+ case 6: *r = s[0] & 0x01; break; /* 1111110x */ Err bitreich.org 70 i+ default: *r = -(unsigned char) s[0]; return 1; /* misencoded */ Err bitreich.org 70 i+ } Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* continuation bytes */ Err bitreich.org 70 i+ for (int i = 1; i < len; i++) Err bitreich.org 70 i+ *r = (*r << 6) | (s[i] & 0x3f); /* 10xxxxxx */ Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* overlong sequences */ Err bitreich.org 70 i+ if (runelen(*r) != len) { Err bitreich.org 70 i+ *r = -(unsigned char) s[0]; Err bitreich.org 70 i+ return 1; Err bitreich.org 70 i+ } Err bitreich.org 70 i+ Err bitreich.org 70 i+ return len; Err bitreich.org 70 i+} Err bitreich.org 70 i+ Err bitreich.org 70 i+ Err bitreich.org 70 i+/* Err bitreich.org 70 i+ * return the next rune in the `len` next `utf`, or 0 if Err bitreich.org 70 i+ * `utf` is misencoded. Err bitreich.org 70 i+ */ Err bitreich.org 70 i+int Err bitreich.org 70 i+runetoutf(char *s, long r) { Err bitreich.org 70 i+ switch (runelen(r)) { Err bitreich.org 70 i+ case 1: Err bitreich.org 70 i+ s[0] = r; /* 0xxxxxxx */ Err bitreich.org 70 i+ s[1] = '\0'; Err bitreich.org 70 i+ return 1; Err bitreich.org 70 i+ case 2: Err bitreich.org 70 i+ s[0] = 0xc0 | (0x3f & (r >> 6)); /* 110xxxxx */ Err bitreich.org 70 i+ s[1] = 0x80 | (0x3f & (r)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[2] = '\0'; Err bitreich.org 70 i+ return 2; Err bitreich.org 70 i+ case 3: Err bitreich.org 70 i+ s[0] = 0xe0 | (0x3f & (r >> 12)); /* 1110xxxx */ Err bitreich.org 70 i+ s[1] = 0x80 | (0x3f & (r >> 6)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[2] = 0x80 | (0x3f & (r)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[3] = '\0'; Err bitreich.org 70 i+ return 3; Err bitreich.org 70 i+ case 4: Err bitreich.org 70 i+ s[0] = 0xf0 | (0x3f & (r >> 6)); /* 11110xxx */ Err bitreich.org 70 i+ s[1] = 0x80 | (0x3f & (r >> 6)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[2] = 0x80 | (0x3f & (r >> 6)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[3] = 0x80 | (0x3f & (r)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[4] = '\0'; Err bitreich.org 70 i+ return 4; Err bitreich.org 70 i+ case 5: Err bitreich.org 70 i+ s[0] = 0xf8 | (0x3f & (r >> 24)); /* 111110xx */ Err bitreich.org 70 i+ s[1] = 0x80 | (0x3f & (r >> 18)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[2] = 0x80 | (0x3f & (r >> 12)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[3] = 0x80 | (0x3f & (r >> 6)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[4] = 0x80 | (0x3f & (r)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[5] = '\0'; Err bitreich.org 70 i+ return 5; Err bitreich.org 70 i+ case 6: Err bitreich.org 70 i+ s[0] = 0xfc | (0x3f & (r >> 30)); /* 1111110x */ Err bitreich.org 70 i+ s[1] = 0x80 | (0x3f & (r >> 24)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[2] = 0x80 | (0x3f & (r >> 18)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[3] = 0x80 | (0x3f & (r >> 12)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[4] = 0x80 | (0x3f & (r >> 6)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[5] = 0x80 | (0x3f & (r)); /* 10xxxxxx */ Err bitreich.org 70 i+ s[6] = '\0'; Err bitreich.org 70 i+ return 6; Err bitreich.org 70 i+ } Err bitreich.org 70 i+ Err bitreich.org 70 i+ return 0; Err bitreich.org 70 i+} Err bitreich.org 70 i+ Err bitreich.org 70 i+ Err bitreich.org 70 i+/* Err bitreich.org 70 i+ * Fill `s` with a printable representation of `r` and return the Err bitreich.org 70 i+ * width of the character Err bitreich.org 70 i+ */ Err bitreich.org 70 i+int Err bitreich.org 70 i+runetoprint(char *s, long r, int col) Err bitreich.org 70 i+{ Err bitreich.org 70 i+ /* ASCII control characters and invalid characters */ Err bitreich.org 70 i+ if (r == '\t') { Err bitreich.org 70 i+ int i; Err bitreich.org 70 i+ for (i = 0; i < (col + 1) % 8 - 1; i++) Err bitreich.org 70 i+ s[i] = ' '; Err bitreich.org 70 i+ s[i] = '\0'; Err bitreich.org 70 i+ Err bitreich.org 70 i+ } else if (r < ' ' || r == 0x7f) { Err bitreich.org 70 i+ sprintf(s, "[%02x]", (char) r); Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* non-breaking space */ Err bitreich.org 70 i+ } else if (r == 0xa0) { Err bitreich.org 70 i+ sprintf(s, "[ ]"); Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* soft hyphen */ Err bitreich.org 70 i+ } else if (r == 0xad) { Err bitreich.org 70 i+ sprintf(s, "[-]"); Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* valid UTF-8 but not printable Unicode code points */ Err bitreich.org 70 i+ } else if ( Err bitreich.org 70 i+ /* unicode control */ Err bitreich.org 70 i+ (0x80 <= r && r < 0xa0) || Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* outside range */ Err bitreich.org 70 i+ (r > 0x10ffff) || Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* noncharacters */ Err bitreich.org 70 i+ (r % 0x010000 == 0x00fffe) || Err bitreich.org 70 i+ (r % 0x010000 == 0x00ffff) || Err bitreich.org 70 i+ (0x00fdd0 <= r && r <= 0x00fdef) || Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* private use */ Err bitreich.org 70 i+ (0x00e000 <= r && r <= 0x00f8ff) || Err bitreich.org 70 i+ (0x0f0000 <= r && r <= 0x0ffffd) || Err bitreich.org 70 i+ (0x100000 <= r && r <= 0x10fffd) || Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* surrogates */ Err bitreich.org 70 i+ (0x00d800 <= r && r <= 0x00dfff) Err bitreich.org 70 i+ ) { Err bitreich.org 70 i+ sprintf(s, "[%04x]", (unsigned int) r); Err bitreich.org 70 i+ Err bitreich.org 70 i+ /* valid unicode characters */ Err bitreich.org 70 i+ } else { Err bitreich.org 70 i+ runetoutf(s, r); Err bitreich.org 70 i+ return 1; Err bitreich.org 70 i+ } Err bitreich.org 70 i+ Err bitreich.org 70 i+ return 0; Err bitreich.org 70 i+} Err bitreich.org 70 i+ Err bitreich.org 70 i+ Err bitreich.org 70 i+/* Err bitreich.org 70 i+ * Read a newly allocated string `s` from `file` up to the first '\n' Err bitreich.org 70 i+ * character or the end of the file. Err bitreich.org 70 i+ */ Err bitreich.org 70 i+int Err bitreich.org 70 i+getutf(char **s, FILE *file) Err bitreich.org 70 i+{ Err bitreich.org 70 i+ int i; int c; Err bitreich.org 70 i+ Err bitreich.org 70 i+ *s = malloc(BUFSIZ); Err bitreich.org 70 i+ Err bitreich.org 70 i+ for (i = 0; (c = fgetc(file)) != EOF && (c != '\n'); i++) { Err bitreich.org 70 i+ (*s)[i] = c; Err bitreich.org 70 i+ Err bitreich.org 70 i+ if ((size_t) i + 16 >= sizeof(s)) Err bitreich.org 70 i+ *s = realloc(*s, sizeof(s) + BUFSIZ); Err bitreich.org 70 i+ } Err bitreich.org 70 i+ Err bitreich.org 70 i+ return i; Err bitreich.org 70 i+} Err bitreich.org 70 i+ Err bitreich.org 70 i+ Err bitreich.org 70 i+int Err bitreich.org 70 i+main() Err bitreich.org 70 i+{ Err bitreich.org 70 i+ char s[7]; Err bitreich.org 70 i+ long r; Err bitreich.org 70 i+ Err bitreich.org 70 i+ for (int i = 0; i < 9000; i++) { Err bitreich.org 70 i+ runetoutf(s, i); Err bitreich.org 70 i+ utftorune(&r, s, 7); Err bitreich.org 70 i+ runetoutf(s, r); Err bitreich.org 70 i+ utftorune(&r, s, 7); Err bitreich.org 70 i+ runetoprint(s, r, 0); Err bitreich.org 70 i+ Err bitreich.org 70 i+ printf("%5X: ", r); Err bitreich.org 70 i+ printf("'%s'\t", s); Err bitreich.org 70 i+ Err bitreich.org 70 i+ if (i % 8 == 0) Err bitreich.org 70 i+ puts(""); Err bitreich.org 70 i+ } Err bitreich.org 70 i+ Err bitreich.org 70 i+ return 0; Err bitreich.org 70 i+} Err bitreich.org 70 1diff --git a/text.h b/text.h /scm/iomenu/file/text.h.gph bitreich.org 70 i@@ -0,0 +1,6 @@ Err bitreich.org 70 i+typedef int Rune; Err bitreich.org 70 i+ Err bitreich.org 70 i+int utflen(char *, int); Err bitreich.org 70 i+int runelen(Rune); Err bitreich.org 70 i+int utftorune(Rune *, char *, int); Err bitreich.org 70 i+int runetoutf(char *, Rune); Err bitreich.org 70 .