Sutou Kouhei comments

Results 417 comments of


                                            Sutou Kouhei

Apache ArrowのDictionary Messagesを使用する。

参考URL にもあるとおり、各レコードバッチの前に追加のdictionaryのエントリーを送ることができるのですが、Apache ArrowのC++実装ではまだこれに対応していなかったはずなので、最初にdictionaryを完成させてから送受信できたほうが現状ではよりポータブルになりそうです。

Apache ArrowのDictionary Messagesを使用する。

参照型だけdictionaryを使うようにするのがよさそうには思っています。参照型だと別途dictionaryを構築する必要がないからです。（値を全部なめて重複なしのキーと値のリストを用意する必要がない。参照先のテーブルの`_id`と`_key`がdictionary相当の情報になる。）ただ、参照先のテーブルの`_key`をすべて送るのは無駄（レコードバッチで使われていない`_key`があるかもしれない）なので、そこはがんばらないといけない。

Apache ArrowのDictionary Messagesを使用する。

参照先のテーブルごとに別のdictionaryを作るので大丈夫なはずです！

Apache ArrowのDictionary Messagesを使用する。

さすがです！

Apache ArrowのDictionary Messagesを使用する。

Dictionaryにすると発生する問題って互換性だけでしたっけ？ `command_version=3`はexperimental扱いなので、 #1217 と同じバージョンでえいやっとやってしまっていい気がします。 Dictionaryにすると参照先のレコードのIDも一緒に返せると思うので文字列型だけではなくすべての型でDictionaryを使ったほうがいい気がします。

Apache ArrowのDictionary Messagesを使用する。

あぁ、そうなるんでしたっけ。では、レコードIDも一緒に返すのは諦めますか。。。

load: Not closing Type object when GRN_ENABLE_REFERENCE_COUNT=yes

Generally, we don't need to close types such as `ShortText`. Because it doesn't allocate large memory nor open files.

[RFC]API to retrieve query position in document

`match_positions(column)`で ``` json [ { "offset": 3, "length": 2 }, { "offset": 7, "length": 3 } ] ``` みたいな感じですかねぇ。単位がバイトか文字かわかりにくい気がするので`match_positions_byte(column)`の方がいいかも。

[RFC]API to retrieve query position in document

`position`と`location`はどっちがいいのかしら。

[RFC]API to retrieve query position in document

> 「ポジション」の配列を返します。各「ポジション」には「ポジション」情報と「長さ」情報が含まれます。という説明になると混乱しそうなので`position`じゃない方がいいんじゃないですかねぇ。